期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
基于大规模语料划分的频繁模式查找算法 预览 被引量:1
1
作者 丁溪源 黄河燕 +1 位作者 张海军 王树梅 《计算机科学》 CSCD 北大核心 2012年第3期 149-152,169,共5页
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公... 频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。 展开更多
关键词 频繁模式 重复串 语料划分 子串归并
在线阅读 免费下载
基于分词提取重复串的未登录词遗漏量化模型 预览 被引量:5
2
作者 张海军 史树敏 +1 位作者 丁溪源 黄河燕 《中文信息学报》 CSCD 北大核心 2011年第2期 122-128,共7页
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题... 基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。 展开更多
关键词 未登录词识别 重复串 条件随机域模型 中文分词
在线阅读 下载PDF
中文新词识别技术综述 预览 被引量:35
3
作者 张海军 史树敏 +1 位作者 朱朝勇 黄河燕 《计算机科学》 CSCD 北大核心 2010年第3期 6-10,16,共6页
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相部字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新... 新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相部字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。 展开更多
关键词 新词识别 未登录词 候选字串 训练语料 词性猜测
在线阅读 免费下载
一种改进的中文字符串排序方法 预览 被引量:3
4
作者 张海军 丁溪源 朱朝勇 《计算机工程与应用》 CSCD 北大核心 2010年第19期 129-131,共3页
对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序... 对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法对代表字串的整型数组排序,用以实现对字符串的快速排序。实验表明,提出的算法能快速地进行中文字符串排序,比快速排序算法具有更好的性能,且排序时间与数据规模之间是线性关系,算法的时间复杂度为O(dn)。 展开更多
关键词 中文字符串 基数排序 散列表 时间复杂度
在线阅读 下载PDF
一种基于独立性统计的子串归并算法 预览 被引量:1
5
作者 周浪 冯冲 +1 位作者 黄河燕 王平尧 《计算机工程与应用》 CSCD 北大核心 2010年第24期 129-131,共3页
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,... 现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%。 展开更多
关键词 子串归并 独立性统计 分词碎片
在线阅读 下载PDF
一种应用组合特征的中文未登录词词性猜测研究 预览 被引量:3
6
作者 张海军 冯冲 +1 位作者 史树敏 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2010年第7期 1402-1406,共5页
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性... 未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值. 展开更多
关键词 中文分词 未登录词 条件随机域模型 词性猜测
在线阅读 下载PDF
基于本体的汉语领域命名实体识别 预览 被引量:2
7
作者 史树敏 冯冲 +2 位作者 黄河燕 刘东升 王树梅 《情报学报》 CSSCI 北大核心 2009年第6期 857-863,共7页
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识... 命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用。 展开更多
关键词 领域实体 领域命名实体识别 本体 词性规则模板 CRFS
在线阅读 下载PDF
词间相关性在贝叶斯文本分类中的应用研究 预览 被引量:3
8
作者 章舜仲 王树梅 +1 位作者 黄河燕 陈肇雄 《计算机工程与应用》 CSCD 北大核心 2009年第16期 159-161,共3页
针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21... 针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。 展开更多
关键词 文本分类 朴素贝叶斯 事件相关 相关度 树扩展型朴素贝叶斯分类器
在线阅读 下载PDF
一种采用聚类技术改进的KNN文本分类方法 被引量:29
9
作者 张孝飞 黄河燕 《模式识别与人工智能》 EI CSCD 北大核心 2009年第6期 936-940,共5页
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中... KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高. 展开更多
关键词 k-最近邻(KNN) 文本分类 文本聚类 聚类中心 自然语言处理
自然语言文本共指消解性能评测算法研究 预览 被引量:1
10
作者 史树敏 黄河燕 刘东升 《计算机科学》 CSCD 北大核心 2008年第9期 168-171,177,共5页
在自然语言文本处理中,共指研究处于基础且关键的一环,它的有效解决将为众多的语言工程处理问题提供有力支持,因此对于共指消解性能的评测就显得尤为重要。针对共指消解任务的几种评测算法进行了深入研究,分析各种方法优缺点,指出C... 在自然语言文本处理中,共指研究处于基础且关键的一环,它的有效解决将为众多的语言工程处理问题提供有力支持,因此对于共指消解性能的评测就显得尤为重要。针对共指消解任务的几种评测算法进行了深入研究,分析各种方法优缺点,指出CEAF方法是目前缺乏用于指代任务处理开放语料情况下,较适合汉语自然语言文本共指消解性能评价的一种方法。 展开更多
关键词 共指消解评测 MUC-6算法 B-CUBE算法 ACE-value评测 CEAF算法
在线阅读 免费下载
知网的理论发现 预览 被引量:74
11
作者 董振东 董强 郝长伶 《中文信息学报》 CSCD 北大核心 2007年第4期 3-9,共7页
知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识... 知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KDML)。本文还介绍了知网的计算意义的能力以及它最新发展。知网将成为一些新兴技术如自然语言搜索等的基础设施。 展开更多
关键词 计算机应用 中文信息处理 知识系统 本体论 义原 语义角色 WORDNET
在线阅读 下载PDF
跨语言信息检索中查询语句翻译转换算法 预览 被引量:1
12
作者 张孝飞 黄河燕 +1 位作者 陈肇雄 代六玲 《计算机工程》 CAS CSCD 北大核心 2007年第11期 166-167,212,共3页
跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理... 跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,将查询语句的翻译问题转换为查询关键词词典义项的boost值计算,重构目标语查询语句。 展开更多
关键词 跨语言信息检索 查询语句 翻译转换 双语语料库
在线阅读 下载PDF
基于属性相关性分析的贝叶斯分类模型 预览 被引量:10
13
作者 章舜仲 王树梅 +1 位作者 黄河燕 陈肇雄 《情报学报》 CSSCI 北大核心 2007年第2期 271-274,共4页
朴素贝叶斯分类器是一种简单而有效的概率分类方法,然而其属性独立性假设在现实世界中多数不能成立。为改进其分类性能,近几年已有大量研究致力于构建能反映属性之间依赖关系的模型。本文提出一种向量相关性度量方法,特征向量属于类... 朴素贝叶斯分类器是一种简单而有效的概率分类方法,然而其属性独立性假设在现实世界中多数不能成立。为改进其分类性能,近几年已有大量研究致力于构建能反映属性之间依赖关系的模型。本文提出一种向量相关性度量方法,特征向量属于类的的概率由向量相关度及其属性概率计算。向量相关度可通过本文给出的一个公式进行估计。实验结果表明,使用这种方法构建的分类模型其分类性能明显优于朴素贝叶斯,和其他同类算法相比也有一定提高。 展开更多
关键词 分类模型 贝叶斯定理 属性相关 向量相关度
在线阅读 下载PDF
基于本体的专业机器翻译术语词典研究 预览 被引量:9
14
作者 黄河燕 张克亮 张孝飞 《中文信息学报》 CSCD 北大核心 2007年第1期 17-22,共6页
在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定叉。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题... 在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定叉。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题,以及基于本体(Ontology)的领域知识概念体系的特点;其次,探讨面向专业机器翻译的术语词典研究的几个重要方面,包括通用领域本体的设计、专业术语的描述和向本体的映射、双语或多语MT专业词库的组织和应用等;最后,介绍我们初步已完成的工作,主要包括机器翻译专业领域分类系统设计、专业词典向专业分类系统的映射、ICS标准向专业领域分类系统的映射等。映射实验结果表明,专业领域分类系统对于机器翻译专业词典具有良好的覆盖性。 展开更多
关键词 人工智能 机器翻译 本体 术语词典
在线阅读 下载PDF
用串空间分析公平交换协议 预览 被引量:2
15
作者 沈海峰 薛锐 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2006年第1期 62-68,共7页
公平交换协议是电子商务的关键技术.本文根据公平交换协议和串空间的特点,定义了丛最大(极大)结点、良序丛的概念.依据协议的消息驱动特征,建立了串空间结点标号的递归公平交换协议分析方法.分析了ZG协议并发现一个很多其它分析... 公平交换协议是电子商务的关键技术.本文根据公平交换协议和串空间的特点,定义了丛最大(极大)结点、良序丛的概念.依据协议的消息驱动特征,建立了串空间结点标号的递归公平交换协议分析方法.分析了ZG协议并发现一个很多其它分析没有发现的缺陷,分析结果既肯定了本文方法的可用性又给出了一个具体的应用。 展开更多
关键词 公平交换协议 串空间 良序丛 丛最大结点
在线阅读 下载PDF
基于Ontology的中文问答系统问题分类研究 预览 被引量:3
16
作者 张亮 黄河燕 胡春玲 《中国图书馆学报》 CSSCI 北大核心 2006年第2期60-65,共6页
问题分类是问答系统处理的基础。现在绝大多数的问答系统把问题局限在person,location,date,quantity,manner,works,organization等类型。不利于对更多情况和更深语义的问题的处理。可以基于Ontology的思想建立完整的、全面的、... 问题分类是问答系统处理的基础。现在绝大多数的问答系统把问题局限在person,location,date,quantity,manner,works,organization等类型。不利于对更多情况和更深语义的问题的处理。可以基于Ontology的思想建立完整的、全面的、多层次的问题分类模型。表1。图8。参考文献6。 展开更多
关键词 问答系统 问题分类 ONTOLOGY HOWNET
在线阅读 下载PDF
面向应用的汉语句法分析辅助系统的设计与实现 预览 被引量:1
17
作者 张亮 陈肇雄 +1 位作者 黄河燕 马玉芝 《现代图书情报技术》 CSSCI 北大核心 2006年第1期 47-50,16,共5页
汉语句法分析是汉语研究和中文信息化处理中的一个关键环节,同时也是难点之一,面向汉语句法分析的辅助系统能为这个领域的研究与实践带来便利。本文概述了句法分析辅助系统的体系结构和基本功能,详细分析了系统实现中的两个关键算法... 汉语句法分析是汉语研究和中文信息化处理中的一个关键环节,同时也是难点之一,面向汉语句法分析的辅助系统能为这个领域的研究与实践带来便利。本文概述了句法分析辅助系统的体系结构和基本功能,详细分析了系统实现中的两个关键算法,即括号匹配算法和句法解析算法,初步实验结果表明辅助系统效果良好,达到设计目的。 展开更多
关键词 句法分析 汉语规则 括号匹配
在线阅读 下载PDF
基于锚点词对的双语词对齐算法 预览 被引量:10
18
作者 张孝飞 陈肇雄 +1 位作者 黄河燕 王建德 《小型微型计算机系统》 CSCD 北大核心 2006年第2期 330-334,共5页
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(... 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采. 展开更多
关键词 自然语言处理 双语词对齐 语料 锚点词对
在线阅读 下载PDF
大规模句子相似度计算方法 预览 被引量:6
19
作者 黄河燕 陈肇雄 +1 位作者 张孝飞 张克亮 《中文信息学报》 CSCD 北大核心 2006年第B03期 47-52,共6页
如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,... 如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%。准确率达90%,充分说明了本文算法的有效性。 展开更多
关键词 句子相似度 基于实例的机器翻译 多策略机器翻译 泛化匹配
在线阅读 下载PDF
应用于长频繁集挖掘的基于变动邻域搜索的遗传算法设计 预览
20
作者 章舜仲 王树梅 +1 位作者 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2006年第6期 10-16,共7页
提出了一种基于变动邻域搜索的长频繁集挖掘方法(VNS—GA),利用遗传算法的高效搜索性能快速挖掘最大频繁集。在遗传算法的适应度函数设计中,综合考虑项集支持度、长度以及项集支持度和邻域中心支持度的距离,算法一次运行可找出邻... 提出了一种基于变动邻域搜索的长频繁集挖掘方法(VNS—GA),利用遗传算法的高效搜索性能快速挖掘最大频繁集。在遗传算法的适应度函数设计中,综合考虑项集支持度、长度以及项集支持度和邻域中心支持度的距离,算法一次运行可找出邻域内的最大频繁集,改变邻域中心即可找到我们需要的最大频繁集。算法有效性通过实验得到了验证,且实验表明该算法的时间复杂度与支持度阈值大小无关.因此对于长模式挖掘问题具有很高的效率。 展开更多
关键词 计算机应用 中文信息处理 遗传算法 频繁集 搜索空间 邻域搜索 apriorl性质
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部 意见反馈