期刊文献+
共找到1,679篇文章
< 1 2 84 >
每页显示 20 50 100
一种结构和语义兼顾的综合分析思想在复句依存句法分析中的运用 预览
1
作者 李源 黄文灿 胡金柱 《计算机与数字工程》 2019年第3期587-592,共6页
针对目前分析复句中分句内成分间依存关系的方法多是从分析语法成分间的关系出发,并通过句子内词与词之间的依存关系来揭示句子的句法结构,但容易忽略语言结构的层次而导致在语义理解上有明显缺陷这一问题,在上述分析过程中引入综合分... 针对目前分析复句中分句内成分间依存关系的方法多是从分析语法成分间的关系出发,并通过句子内词与词之间的依存关系来揭示句子的句法结构,但容易忽略语言结构的层次而导致在语义理解上有明显缺陷这一问题,在上述分析过程中引入综合分析法的思想,提出了一种新的汉语依存句法分析方法,并以汉语结构类型模板为桥梁,得到结构和语义兼顾的依存关系分析结果。实验结果表明该方法相较于传统方法在依存关系界定性能上有一定提高。 展开更多
关键词 中文信息处理 依存关系 综合分析法 汉语结构类型模板 复句
在线阅读 下载PDF
基于地名识别的地方新闻分类方法 预览
2
作者 李果 刘任任 《软件》 2018年第4期73-76,共4页
地方新闻时常因为传播渠道窄而被忽视,但在特定范围内具有较高的价值。新闻文本中有很多地理空间信息,本文提出了一种基于地名识别的地方新闻分类方法,首先建立地名词典,利用中文分词、地名识别技术将原始文本转换为地名词汇集,然后利... 地方新闻时常因为传播渠道窄而被忽视,但在特定范围内具有较高的价值。新闻文本中有很多地理空间信息,本文提出了一种基于地名识别的地方新闻分类方法,首先建立地名词典,利用中文分词、地名识别技术将原始文本转换为地名词汇集,然后利用地名标准化、地名消歧技术进一步精简地名词汇集,最后通过规则匹配实现新闻文本的行政区划归类。实验结果表明,该方法对于地方新闻文本分类具有较高的准确率和召回率。 展开更多
关键词 地名识别 地方新闻 文本分类 中文信息处理
在线阅读 下载PDF
中文信息处理下句法分析之发展前景卮言
3
作者 王喆 《才智》 2018年第31期199-200,共2页
汉语由于其语法在外在形态方面变化较少,以形态来确定词的句法功能困难过大。由于词序和虚词是汉语主要的语法手段,在中文信息处理过程中产生的歧义问题迟迟难以解决。而如果这一问题不解决,翻译、校对、识别方面的应用技术也会遇到巨... 汉语由于其语法在外在形态方面变化较少,以形态来确定词的句法功能困难过大。由于词序和虚词是汉语主要的语法手段,在中文信息处理过程中产生的歧义问题迟迟难以解决。而如果这一问题不解决,翻译、校对、识别方面的应用技术也会遇到巨大的困难。本文借鉴西方理论认知语言学、阐释学等内容,从汉语发展本身的角度出发,分析中文信息处理在句法分析方面突破的难度及未来可能的突破方向。 展开更多
关键词 中文信息处理 句法分析认知 语言学 乔姆斯基 阐释学 伽达默尔
面向三元空间的中文信息处理
4
作者 孙茂松 《科技纵览》 2018年第7期66-67,共2页
国家973计划项目“面向三元空间的中文信息处理理论与方法”的研究团队以由网络空间、现实世界和人类认知组成的三元空间中的中文信息为研究对象,以中文深度计算为技术纽带,对网络空间、现实世界与人类认知的交互融合展开深入研究,... 国家973计划项目“面向三元空间的中文信息处理理论与方法”的研究团队以由网络空间、现实世界和人类认知组成的三元空间中的中文信息为研究对象,以中文深度计算为技术纽带,对网络空间、现实世界与人类认知的交互融合展开深入研究,提出了一整套具有创新性的中文信息处理理论与方法,显著提升了机器理解互联网中文语义内容的能力。 展开更多
关键词 中文信息处理 网络空间 三元 现实世界 计划项目 深度计算 机器理解 互联网
基于中文AMR语料库的非投影结构研究 预览
5
作者 闻媛 宋丽 +3 位作者 吴泰中 李斌 周俊生 曲维光 《中文信息学报》 CSCD 北大核心 2018年第12期31-40,共10页
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影... 非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。 展开更多
关键词 抽象语义表示 概念对齐 非投影 语义分析 中文信息处理
在线阅读 下载PDF
一种基于规则和统计的连动句识别方法 预览
6
作者 刘雯旻 张晓如 《电子设计工程》 2017年第22期18-22,共5页
连动句是具备连动结构的句子,现代汉语中十分常见且使用频繁。连动句语法结构和语义关系都很复杂,对此文中针对连动句的识别问题进行了研究,提出一种集规则方法与统计方法于一体的汉语连动句识别方法,文中提出的方法首先设计构建基于连... 连动句是具备连动结构的句子,现代汉语中十分常见且使用频繁。连动句语法结构和语义关系都很复杂,对此文中针对连动句的识别问题进行了研究,提出一种集规则方法与统计方法于一体的汉语连动句识别方法,文中提出的方法首先设计构建基于连动句形式特征和语义角色的基础规则库和被动名词库,然后使用互信息计算谓语动词与主语候选项的搭配强度,最后达到识别连动句的目的。实验结果准确率达到79.42%,表明本文方法可以较为有效地识别中文文本中的连动句。 展开更多
关键词 连动句 自动识别 信息 中文信息处理
在线阅读 下载PDF
基于条件随机场的中文情感分析方法比较研究 预览
7
作者 王茵 周学广 陆健 《计算机与数字工程》 2017年第9期1703-1707,1730共6页
条件随机场(Conditional random field,CRF)模型是目前开展中文情感分析研究的一个热门工具。文章分析了CRF研究现状,给出了CRF适用于中文信息处理的理由,开展了基于CRF算法的比较研究:运用自然语言处理与中文计算2012年会议的公开... 条件随机场(Conditional random field,CRF)模型是目前开展中文情感分析研究的一个热门工具。文章分析了CRF研究现状,给出了CRF适用于中文信息处理的理由,开展了基于CRF算法的比较研究:运用自然语言处理与中文计算2012年会议的公开评测结果,分别对CRF与隐马尔科夫模型和最大熵马尔可夫模型进行了比较研究,总结了CRF模型的特点。 展开更多
关键词 条件随机场 隐马尔科夫 最大熵马尔可夫 情感分析 中文信息处理
在线阅读 下载PDF
基于语句压缩的中文语义依存分析 预览
8
作者 周亮俊 向阳 《计算机应用》 CSCD 北大核心 2017年第A01期266-269,共4页
针对当前中文语义依存分析中耗时长、准确率低的问题,提出了一种基于语句压缩进行中文语义依存分析的方法。在此方案中,首先通过开源工具CRF++训练得到特定的序列化标签压缩模型,通过此模型得到任意输入句子的主干信息,并为下一步提... 针对当前中文语义依存分析中耗时长、准确率低的问题,提出了一种基于语句压缩进行中文语义依存分析的方法。在此方案中,首先通过开源工具CRF++训练得到特定的序列化标签压缩模型,通过此模型得到任意输入句子的主干信息,并为下一步提供候选集;其次,选取原句和压缩后句子中的词性、上下文等特征,使用条件随机场对其中的语义依存关系进行识别;最后进行谓语消歧和句子回溯。实验以Co NLL 2009公开任务中的公有语料作为数据集,与传统的直接使用基于图的语义依存分析方法相比,本方案的处理时间缩短了80%,精确率提高了3.48%,综合指标提高了2.11%。 展开更多
关键词 语义依存 语句压缩 条件随机场 中文信息处理
在线阅读 下载PDF
藏文字自动生成技术研究 预览
9
作者 才智杰 孙茂松 才让卓玛 《高原科学研究》 2017年第1期98-103,共6页
字是语言文字的基本组成单位,文字自动生成是自然语言处理的基础,为自然语言处理中字属性分析、输入法设计、排序、语音处理和藏文字符信息熵研究等提供理论数据。文章在分析藏文字结构的基础上归纳了藏文构字规则,并以藏文字的核心... 字是语言文字的基本组成单位,文字自动生成是自然语言处理的基础,为自然语言处理中字属性分析、输入法设计、排序、语音处理和藏文字符信息熵研究等提供理论数据。文章在分析藏文字结构的基础上归纳了藏文构字规则,并以藏文字的核心字符基字的竖直方向上所合成分将藏文字分成了8个大类,对不同类型藏文字分析了其生成模型及生成算法,经测试可自动生成符合现代藏文文法的所有现代藏文字。 展开更多
关键词 中文信息处理 藏文字 自动生成
在线阅读 免费下载
汉语名词的隐喻知识表示及获取研究 预览
10
作者 汪梦翔 饶琪 +1 位作者 顾澄 王厚峰 《中文信息学报》 CSCD 北大核心 2017年第6期1-9,共9页
隐喻知识的表示和获取是进行隐喻计算的基础。该文把隐喻知识看作是本体和喻体的特征和属性之间的关联。主要通过惯用语导入和句法模式识别两种机制,来获取名词的隐喻知识。惯用语的隐喻比较固定和单一,从专门的词典释义中就能获取准确... 隐喻知识的表示和获取是进行隐喻计算的基础。该文把隐喻知识看作是本体和喻体的特征和属性之间的关联。主要通过惯用语导入和句法模式识别两种机制,来获取名词的隐喻知识。惯用语的隐喻比较固定和单一,从专门的词典释义中就能获取准确的隐喻特征和属性。而一般名词的隐喻知识比较复杂,该文主要依托语料库和搜索引擎,通过关键词和句法匹配来获取同一名词不同的隐喻特征及对应属性。该项工作的结果,对隐喻句隐喻意义的获取和名词语义属性特征的描述体系构建具有一定的价值。 展开更多
关键词 中文信息处理 隐喻计算 模式识别 惯用语
在线阅读 下载PDF
中文信息处理中的歧义问题分析 预览 被引量:1
11
作者 方玉萍 《科技传播》 2017年第13期58-59,共2页
中文内容中的歧义问题一直都是语言学中的一个重点研究内容,同时也是将中文语言与计算机信息处理技术相互融合的一个难点所在。随着我们对中文信息处理相关问题的深入研究,我们也逐渐发现了新的问题。这给中文信息化处理工作带来了极大... 中文内容中的歧义问题一直都是语言学中的一个重点研究内容,同时也是将中文语言与计算机信息处理技术相互融合的一个难点所在。随着我们对中文信息处理相关问题的深入研究,我们也逐渐发现了新的问题。这给中文信息化处理工作带来了极大的障碍。为了更好地理解并有效地解决这一问题,我们将中文信息处理中存在的问题专门拿出来进行探讨。通过对歧义问题的处理,从而就目前存在的歧义的原因进行分析并提出相关消除歧义的方式方法。 展开更多
关键词 中文信息处理 歧义问题 分析
在线阅读 下载PDF
基于大规模网络语料的藏文音节拼写错误统计与分析 预览
12
作者 刘汇丹 洪锦玲 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700... 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 展开更多
关键词 藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
在线阅读 下载PDF
面向信息处理的汉语最长名词短语界定研究
13
作者 钱小飞 侯敏 《语言文字应用》 CSSCI 北大核心 2017年第2期127-134,共8页
目前广泛采纳的最长名词短语定义是以其句法功能划分出的短语子集,导致了近30%的边界识别错误,同时由于对基本特征缺乏一致认识,不同研究的定义结果也有所不同。本文讨论了最长名词短语的长度约束、名词性认定、外延范围和层次构造等问... 目前广泛采纳的最长名词短语定义是以其句法功能划分出的短语子集,导致了近30%的边界识别错误,同时由于对基本特征缺乏一致认识,不同研究的定义结果也有所不同。本文讨论了最长名词短语的长度约束、名词性认定、外延范围和层次构造等问题,提出按照句法位置特征划分出最长名词短语全集,定义为句子中不被其他名词短语直接包含的名词短语,其中包括单词结构、名词性短语和离心式名词短语。新定义的最长名词短语具有功能上的一致性和分布的相似性,减少了边界歧义,它呈现多层分布,但集中的层级分布倾向也预示了高效识别的可能性。 展开更多
关键词 中文信息处理 最长名词短语 界定 句法位置 全集
中文信息处理研究现状分析 预览 被引量:3
14
作者 宗成庆 《语言战略研究》 2016年第6期19-26,共8页
60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引... 60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引起中国国内同行的关注,为未来的中文信息处理研究提供有益的参考。 展开更多
关键词 中文信息处理 自然语言处理 自然语言理解 计算语言学
在线阅读 下载PDF
中文信息处理评测资源建设现状与问题研究 预览
15
作者 朱琦 王敬 《曲靖师范学院学报》 2016年第2期72-77,共6页
自然语言处理任务复杂,并且涉及庞大的数据量,需要在同一数据集上进行可重复的测试来比较不同研究方法的优劣。因此,技术评测一直都是自然语言处理技术发展的重要驱动。本研究从多维度调研了国内影响力较大的自然语言处理技术评测,并同... 自然语言处理任务复杂,并且涉及庞大的数据量,需要在同一数据集上进行可重复的测试来比较不同研究方法的优劣。因此,技术评测一直都是自然语言处理技术发展的重要驱动。本研究从多维度调研了国内影响力较大的自然语言处理技术评测,并同国际上的评测语言资源在语料来源、语料规模、语料库建设方法等进行了对比分析,总结了国内评测语言资源存在的不足,分析了评测语言资源的建设方向和发展趋势。 展开更多
关键词 评测 语言资源 中文信息处理
在线阅读 免费下载
藏文字符的向量模型及构件特征分析 预览 被引量:2
16
作者 才智杰 才让卓玛 《中文信息学报》 CSCD 北大核心 2016年第2期202-206,共5页
藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位... 藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。 展开更多
关键词 中文信息处理 向量模型 稀疏域模型 构件
在线阅读 下载PDF
一种中文伪评论语料半自动获取方法 预览
17
作者 郝秀兰 许方曲 蒋云良 《中文信息学报》 CSCD 北大核心 2016年第1期190-197,共8页
该文提出了一种中文伪评论语料半自动收集方法,主要包括数据收集、句法分析、情感倾向性分析等方法,并对影响方法正确性的错误进行了总结。文中着重介绍了一种句法分析方法,在句法分析的基础上提出了<评价对象,评价短语>的提取方... 该文提出了一种中文伪评论语料半自动收集方法,主要包括数据收集、句法分析、情感倾向性分析等方法,并对影响方法正确性的错误进行了总结。文中着重介绍了一种句法分析方法,在句法分析的基础上提出了<评价对象,评价短语>的提取方法。该提取方法简化了情感二元对的句法呈现模式。同时,对部分实验结果进行了分析,对提高文本情感分析的准确率提出了一些建议。 展开更多
关键词 计算机应用 中文信息处理 倾向性分析 中文评论 半自动获取
在线阅读 下载PDF
基于科技文献库的领域专家群发现及其推荐方法 预览
18
作者 段旭磊 张仰森 李超逸 《北京信息科技大学学报:自然科学版》 2016年第6期23-27,共5页
为了满足企业对包括专家查找、专家发现、团队挖掘、专业技术决策支持及专家研究成果发现等信息服务的巨大需求,采用数据挖掘、中文信息处理等技术,通过对科技文献库中专家数据的挖掘、分析、建模,构建了领域专家群发现模型,并采用拓扑... 为了满足企业对包括专家查找、专家发现、团队挖掘、专业技术决策支持及专家研究成果发现等信息服务的巨大需求,采用数据挖掘、中文信息处理等技术,通过对科技文献库中专家数据的挖掘、分析、建模,构建了领域专家群发现模型,并采用拓扑关系图展示专家群中各专家所涉及领域的详细研究内容以及各专家之间的交叉研究关系。为用户在海量信息中快速、准确找到需求专家及专家研究成果提供帮助。 展开更多
关键词 信息服务 科技文献 数据挖掘 中文信息处理 专家群 拓扑关系
在线阅读 下载PDF
藏文字形结构分布研究 预览 被引量:1
19
作者 才智杰 才让卓玛 《中文信息学报》 CSCD 北大核心 2016年第4期98-105,共8页
字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构... 字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。 展开更多
关键词 中文信息处理 字形结构 独体字 合体字 频度统计
在线阅读 下载PDF
一种基于基准词的跨领域文本倾向性计算方法
20
作者 沙芸 李晓磊 张世博 《山东大学学报:理学版》 CAS CSCD 北大核心 2016年第7期59-65,共7页
常用的基于特征表达的跨领域文本倾向性分析的基本思想是通过统计的方法对源领域和目标领域的数据进行特征对齐,再根据特征间关联构建目标领域的分类器。从词汇倾向性计算入手,提出了一种基于领域基准词表的跨领域倾向性计算的方法。与... 常用的基于特征表达的跨领域文本倾向性分析的基本思想是通过统计的方法对源领域和目标领域的数据进行特征对齐,再根据特征间关联构建目标领域的分类器。从词汇倾向性计算入手,提出了一种基于领域基准词表的跨领域倾向性计算的方法。与传统的词汇倾向性计算方法不同的是,该方法在构建基准词表时,同时考虑词性和领域信息,在计算倾向性时,根据词汇当前的词性和领域信息采用相应的领域基准词表进行计算。实验结果表明:与传统的跨领域倾向性分析算法相比,虽然该方法在准确率上的优势不明显,但可以不依赖源领域和目标领域文本数据;与传统的基于基准词表的倾向性计算方法相比,该方法能够大幅提高倾向性分析的准确率。 展开更多
关键词 中文信息处理 跨领域倾向性分析 词汇倾向性计算 基准词表
上一页 1 2 84 下一页 到第
使用帮助 返回顶部 意见反馈