期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
数据预处理技术在地学大数据中应用 预览 被引量:1
1
作者 王成彬 马小刚 陈建国 《岩石学报》 CSCD 北大核心 2018年第2期303-313,共11页
大数据时代随着数据的爆发式增长,在带来可供研究的海量数据的同时,也带来巨量的噪声和冗余数据。在地学领域,由于研究方向和技术方法手段的多样化,产生了数据量巨大和类型众多的地学数据集合。在地学信息的研究过程中,经常碰到地... 大数据时代随着数据的爆发式增长,在带来可供研究的海量数据的同时,也带来巨量的噪声和冗余数据。在地学领域,由于研究方向和技术方法手段的多样化,产生了数据量巨大和类型众多的地学数据集合。在地学信息的研究过程中,经常碰到地学信息孤岛,分图幅地学数据边界系统误差和地学文档的非结构化问题。在对地学数据进行信息的提取和挖掘之前,必须根据研究目的对地学大数据进行预处理,使冗余、复杂的大数据转为结构化、准确、可用的数据。本文以地学大数据的预处理技术为切入点,从地学数据交互标准与语义、数据调平、地质图接边和文本结构化等四个研究方面,分析阐述目前地学大数据挖掘方面存在的问题及主要的解决手段,同时也对多元数据融合在大数据中的应用进行了阐述。希望通过本文对地学大数据预处理技术的探讨,能对地学大数据的挖掘有所帮助。 展开更多
关键词 地学大数据 数据预处理 数据调平 地图接边 文本数据结构
在线阅读 下载PDF
基于最大概率法探讨中医症状信息提取与标准化
2
作者 梁礼铿 黎敬波 《中华中医药杂志》 CSCD 北大核心 2017年第5期2159-2162,共4页
目的:通过比较两个基于最大概率法的症状提取方案,探讨中医症状信息的提取和标准化。方法:数据分析和处理在R 3.3.2上进行。运用《诊断学》《中医诊断学》及1 000份已标记的肺炎住院病历建立症状标准化数据库,症状描述词库和关键词-形... 目的:通过比较两个基于最大概率法的症状提取方案,探讨中医症状信息的提取和标准化。方法:数据分析和处理在R 3.3.2上进行。运用《诊断学》《中医诊断学》及1 000份已标记的肺炎住院病历建立症状标准化数据库,症状描述词库和关键词-形容词词库。基于最大概率法分别设计出中文分词方案,直接提取方案和组合提取方案。并用这3种方案对2 311份肺炎病历进行症状信息提取和标准化,从产生维度、手工处理情况、症状提取效果对方案进行比较。结果:直接提取方案和组合提取方案均能有效降低维度,组合提取方案手工处理百分比较小和症状提取效果较好。结论:基于最大概率法的组合提取方案能有效提取中医症状信息。 展开更多
关键词 症状 文本挖掘 文本数据结构 中文分词 最大概率法 标准
病理镜检文本数据的结构化处理方法 预览
3
作者 陈德华 刘茜茜 +2 位作者 乐嘉锦 潘乔 朱立峰 《计算机与现代化》 2016年第4期1-6,共6页
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以... 目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。 展开更多
关键词 医疗文本数据 文本数据结构 统计 分词 双向最大匹配
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈
新型冠状病毒肺炎防控与诊疗专栏