期刊文献+
共找到1,176篇文章
< 1 2 59 >
每页显示 20 50 100
主题对比视域下的科学前沿识别方法研究——以碳纳米管领域为例
1
作者 周彦廷 白如江 王效岳 《情报理论与实践》 CSSCI 北大核心 2019年第5期134-140,共7页
[目的/意义]以两种科技文本数据(科技规划文本和基金项目数据)为数据源,构建主题对比视域下的科学前沿识别方法,以期识别出碳纳米管领域科学前沿。[方法/过程]首先,获取碳纳米管领域科技规划文本和基金项目数据,面向科技规划文本提出了... [目的/意义]以两种科技文本数据(科技规划文本和基金项目数据)为数据源,构建主题对比视域下的科学前沿识别方法,以期识别出碳纳米管领域科学前沿。[方法/过程]首先,获取碳纳米管领域科技规划文本和基金项目数据,面向科技规划文本提出了一种以触发词库为基础的规则匹配抽取研究主题的研究方法;面向基金项目数据利用主题模型对其进行研究主题识别;通过计算余弦相似度的方法对比研究主题,结合项目数、资助时长、资助强度等指标构建科学前沿识别模型,并对科学前沿的研究价值与意义进行综合评价。[结果/结论]实验结果表明该方法可以更有效地识别出科学研究前沿主题,科技规划文本的识别粒度为句子级,相比以词为最小识别单位的识别,结果较为宏观。 展开更多
关键词 科学研究前沿 主题识别 信息抽取 多源数据
基于混合机器学习模型的多文档自动摘要
2
作者 唐晓波 翟夏普 《情报理论与实践》 CSSCI 北大核心 2019年第2期145-150,共6页
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中... [目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。 展开更多
关键词 混合机器学习 多文档摘要 语义结构模型 信息抽取
基于重复模式识别的网页信息抽取研究
3
作者 李志义 沈之锐 《情报科学》 CSSCI 北大核心 2019年第3期88-92,96共6页
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法,通过页面解... 【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和相似度的计算量较大,时间较长。 展开更多
关键词 重复模式 信息抽取 编辑距离 聚类
基于远程监督的关系抽取研究综述 预览
4
作者 白龙 靳小龙 +1 位作者 席鹏弼 程学旗 《中文信息学报》 CSCD 北大核心 2019年第10期10-17,共8页
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究... 关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。 展开更多
关键词 远程监督 关系抽取 信息抽取
在线阅读 下载PDF
基于依存句法的初等数学分层抽样应用题题意理解 预览
5
作者 吴林静 劳传媛 +2 位作者 刘清堂 黄景修 巴深 《计算机应用与软件》 北大核心 2019年第5期126-132,177共8页
数学应用题自动求解,即利用计算机对自然语言描述的应用题进行自动理解和作答,一直是人工智能领域研究的重难点和核心目标之一。针对应用题语义复杂、上下文情景多变、关键参数难以准确识别的问题,提出一种基于依存句法的初等数学分层... 数学应用题自动求解,即利用计算机对自然语言描述的应用题进行自动理解和作答,一直是人工智能领域研究的重难点和核心目标之一。针对应用题语义复杂、上下文情景多变、关键参数难以准确识别的问题,提出一种基于依存句法的初等数学分层抽样应用题题意理解方法。通过构建一个面向初等数学分层抽样类应用题的句模库,并结合依存句法来实现分层抽样应用题解题信息的自动抽取。实验研究发现,与仅基于句模的信息抽取方法相比,该方法对不同语义角色的句子的信息抽取准确率均有一定提升,整题理解的准确率从40%上升至68%。 展开更多
关键词 句模 信息抽取 依存句法 自动求解 题意理解
在线阅读 下载PDF
基于本体填充的设计案例获取方法研究 预览
6
作者 徐荣振 高琦 +1 位作者 邵祖光 李建勋 《组合机床与自动化加工技术》 北大核心 2019年第7期125-129,共5页
为提高基于CBR的产品设计中,设计案例获取的自动化水平,文章提出一种针对数据库和文本的基于本体填充的产品设计案例获取方法。首先构建产品设计案例本体,然后对所构建的案例本体进行解析,生成从文本中抽取信息所需的词表。对于数据库... 为提高基于CBR的产品设计中,设计案例获取的自动化水平,文章提出一种针对数据库和文本的基于本体填充的产品设计案例获取方法。首先构建产品设计案例本体,然后对所构建的案例本体进行解析,生成从文本中抽取信息所需的词表。对于数据库型的数据源,首先建立数据库关系模式与本体之间的映射关系,并利用该映射关系自动生成数据库查询语句,对源数据库进行查询。对于文本型的数据源,首先对其进行预处理,生成相应的标注集,然后针对本体中所空缺的元素自动生成检索语句,并将返回值填充到本体中。最终在已有的PDM中开发了设计案例获取构件,并进行了对比实验,验证了该方法的有效性。 展开更多
关键词 案例获取 本体填充 基于案例的推理 信息抽取
在线阅读 下载PDF
基于评论的热点新闻事件识别方法研究 预览
7
作者 郑飘飘 万健 司华友 《浙江科技学院学报》 CAS 2019年第5期392-399,共8页
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相... 随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。 展开更多
关键词 新闻 评论 事件识别 信息抽取
在线阅读 免费下载
基于多尺度融合CNN的恶意软件行为描述语句抽取模型
8
作者 陈文强 周安民 刘亮 《网络安全技术与应用》 2019年第1期28-30,共3页
恶意软件是网络空间安全的重要威胁之一,安全厂商和从业人员发布了大量的恶意软件分析报告。从报告中自动化识别并提取出恶意软件行为与能力描述的相关文本语句,能够帮助分析人员快速了解恶意软件的关键信息。本文使用一种基于多尺度融... 恶意软件是网络空间安全的重要威胁之一,安全厂商和从业人员发布了大量的恶意软件分析报告。从报告中自动化识别并提取出恶意软件行为与能力描述的相关文本语句,能够帮助分析人员快速了解恶意软件的关键信息。本文使用一种基于多尺度融合的卷积神经网络模型抽取上述信息,该模型仅使用预训练词向量作为输入,利用卷积层提取特征,减少对人工特征依赖。基于Phandi等人构建的数据集MalwareTextDBv2.0数据集进行测试,准确率为71.33%、F1值为66.48%。相对于该数据集上的其它识别方法,本模型具有更高准确率和F1值。 展开更多
关键词 恶意软件 信息抽取 卷积神经网络
基于网络爬虫的大数据岗位职业技能的分析 预览
9
作者 姚超 《电脑知识与技术:学术版》 2019年第9X期1-2,12,共3页
为了更加客观且全面地了解当下各企业对大数据岗位的职业技能要求,他首先通过网络爬虫技术针对前程无忧网站上各个企业所发布与大数据相关的岗位进行信息提取并保存,然后通过分词技术对提取到的岗位信息进行分词,最后对分词后的数据进... 为了更加客观且全面地了解当下各企业对大数据岗位的职业技能要求,他首先通过网络爬虫技术针对前程无忧网站上各个企业所发布与大数据相关的岗位进行信息提取并保存,然后通过分词技术对提取到的岗位信息进行分词,最后对分词后的数据进行统计分析。通过分析,他得到了相对客观的大数据岗位职业技能需求信息,这为后续地大数据人才培养方案制定提供了更加客观全面的数据支撑。 展开更多
关键词 网络爬虫 大数据 职业技能 信息抽取 数据分析
在线阅读 下载PDF
基于框架语义扩展训练集的有监督事件检测方法 预览
10
作者 张婧丽 周文瑄 +3 位作者 洪宇 姚建民 周国栋 朱巧明 《中文信息学报》 CSCD 北大核心 2019年第5期82-92,131共12页
事件检测是信息抽取领域的一个重要研究方向,目前的事件检测方法往往受限于数据稀疏、语料例句分布不平衡和歧义问题。该文研究发现框架语义知识库FrameNet(FN)含有丰富的已标注框架的语料,并且FN中定义的框架和事件检测中定义的事件具... 事件检测是信息抽取领域的一个重要研究方向,目前的事件检测方法往往受限于数据稀疏、语料例句分布不平衡和歧义问题。该文研究发现框架语义知识库FrameNet(FN)含有丰富的已标注框架的语料,并且FN中定义的框架和事件检测中定义的事件具有极其相似的结构。框架由词法单元和一组框架元素组成,可与事件中的触发词和论元形成对应关系;而且,FN中的许多框架实际上也能表达某些事件。因此,该文利用这一相似性构建事件类型与框架类型的映射关系,从而选取FN中合适的例句作为事件检测的扩充语料,以此来优化事件检测性能。实验结果显示,针对触发词识别任务和事件类型识别任务,该文提出的框架语义辅助方法取得了较好的效果。 展开更多
关键词 事件检测 信息抽取 框架语义
在线阅读 下载PDF
面向数字记忆的数字文档资源描述框架构建研究
11
作者 牛力 蒋菲 曾静怡 《档案学研究》 CSSCI 北大核心 2019年第4期40-49,共10页
基于描述框架采用信息抽取技术实现大量文档的核心内容挖掘是数字记忆背景下数字文档资源建设的新思路,直接体现知识服务的本质。文章从宏观与微观两个维度,构建了面向数字记忆的数字文档资源描述框架:囊括基本属性、关系属性与事件属... 基于描述框架采用信息抽取技术实现大量文档的核心内容挖掘是数字记忆背景下数字文档资源建设的新思路,直接体现知识服务的本质。文章从宏观与微观两个维度,构建了面向数字记忆的数字文档资源描述框架:囊括基本属性、关系属性与事件属性三种类型以及具体的属性项,同时设计了基于CIDOC CRM的属性映射机制,实现不同框架属性间的标准与共享。最后,进行历史人物主题属性构建,基于孔子这一具体人物进行填充和实例化,以验证描述框架的可行性与有效性,指导数字记忆资源建设实践。 展开更多
关键词 数字文档资源 描述框架 数字记忆 信息抽取 知识服务
文本挖掘分析技术在审计稽核中的应用探索 预览
12
作者 罗江筑 巫阳波 李梅 《科技风》 2019年第18期76-76,81共2页
随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,仅靠人工进行审计,成效杯水车薪,针对非结构化数据的审计已经成为审计业务的盲区,利用高科技手段与工具实现非... 随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,仅靠人工进行审计,成效杯水车薪,针对非结构化数据的审计已经成为审计业务的盲区,利用高科技手段与工具实现非结构化数据的分析与挖掘为审计业务提供数据支撑的需求已迫在眉睫。本文基于文本挖掘技术,采用信息抽取方法从非结构化文档中提取关键信息,进行结构化存储,然后进行自动稽核,既大大减少因人工操作耗费的大量人力、财力成本,又避免了因人为疏忽造成审计问题遗漏的情况,更加全面的审计各种问题。 展开更多
关键词 审计稽核 文本挖掘 信息抽取
在线阅读 下载PDF
妇产科知识图谱构建研究与实现 预览 被引量:1
13
作者 赵雪娇 《中国数字医学》 2019年第1期3-5,共3页
目的:现有医学知识浩瀚如烟,知识图谱是知识展示比较有效的方法。方法:利用自然语言处理技术,对妇产科教材中的医学知识进行抽取和表示,将妇产科知识存储成结构化的知识图谱,方便专业医学人士查询,也方便对大众进行科普。使用中文分词... 目的:现有医学知识浩瀚如烟,知识图谱是知识展示比较有效的方法。方法:利用自然语言处理技术,对妇产科教材中的医学知识进行抽取和表示,将妇产科知识存储成结构化的知识图谱,方便专业医学人士查询,也方便对大众进行科普。使用中文分词、命名实体识别、实体分类、关系抽取等技术对教科书文本进行信息抽取。结果:将妇产科教材中的知识转变为知识图谱结构。为后期智能医疗等医疗服务提供了理论基础。结论:以教材为来源,构建领域知识图谱很迅速,能够可视化展示医学信息,让人们快速有效了解医学常识。 展开更多
关键词 妇产科教材 自然语言处理 知识图谱 信息抽取
在线阅读 下载PDF
国内外图情领域信息抽取研究文献计量分析
14
作者 李春杰 马建玲 《情报科学》 CSSCI 北大核心 2019年第4期157-164,共8页
【目的/意义】图情领域在数字资源发现、组织与应用中越来越多使用到信息抽取技术,本文将对该领域在信息抽取技术方面的研究进展及应用情况等进行分析,为本领域相关人员提供参考。【方法/过程】以国内图书馆学、情报学领域中国核心期刊... 【目的/意义】图情领域在数字资源发现、组织与应用中越来越多使用到信息抽取技术,本文将对该领域在信息抽取技术方面的研究进展及应用情况等进行分析,为本领域相关人员提供参考。【方法/过程】以国内图书馆学、情报学领域中国核心期刊和国外33种图情期刊为信息源对其中刊载的信息抽取相关研究成果进行计量分析,检索过程不设置时间限制,并利用CNKI、EndNote、Excel、Python分析工具对主题相关的165篇中文文献和35篇外文文献进行年度趋势分析、期刊发文量分析、机构分析、作者分析以及论文主题分布研究。【结果/结论】得出图情领域信息抽取研究的发展趋势、重要的信息源、重要作者、主题研究以及信息抽取技术在图情领域的具体应用。 展开更多
关键词 信息抽取 文献计量 图情领域
自然语言处理发展及应用综述 预览
15
作者 赵京胜 宋梦雪 高祥 《信息技术与信息化》 2019年第7期142-145,共4页
自然语言处理旨在设计算法使计算机像人一样理解和处理自然语言,是互联网和大数据时代的必然。自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关... 自然语言处理旨在设计算法使计算机像人一样理解和处理自然语言,是互联网和大数据时代的必然。自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域,并对NLP的发展进行了展望。 展开更多
关键词 自然语言处理 信息抽取 自动文摘
在线阅读 下载PDF
面向金融风险防控的互联网文本数据关键信息抽取标准研究
16
作者 曹馨宇 刘涌 王海涛 《清华金融评论》 2019年第1期45-46,共2页
防范化解金融风险是实现高质量发展必须跨越的重大关口。合理有效地利用文本中未被利用的与金融相关的信息,可以为金融风险的科学防范提供支持。本文基于已有的成就技术,通过制定规范的技术流程,结合实际应用时的技术现状、技术人员情况... 防范化解金融风险是实现高质量发展必须跨越的重大关口。合理有效地利用文本中未被利用的与金融相关的信息,可以为金融风险的科学防范提供支持。本文基于已有的成就技术,通过制定规范的技术流程,结合实际应用时的技术现状、技术人员情况,通过标准化的方式,提供一种互联网文本数据关键语义信息抽取的普适性方法。 展开更多
关键词 金融风险 信息抽取 文本数据 互联网 标准研究 风险防控 技术流 质量发展
高并发汉英信息抽取系统的设计与实现 预览
17
作者 张少迪 艾山·吾买尔 +1 位作者 郑炅 石刚 《现代电子技术》 北大核心 2019年第16期104-107,111共5页
随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本... 随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。 展开更多
关键词 大数据 高并发 信息抽取 TextRank uWSGI NGINX DJANGO
在线阅读 下载PDF
基于学术论文全文的创新研究评价句抽取研究
18
作者 章成志 李铮 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第10期12-19,共8页
【目的】依据学术论文全文抽取创新研究评价句,分析创新研究评价句的特征与规律。【方法】以图书情报档案学科为例,将学术期刊论文全文作为实验数据,通过选取标志词、制定抽取规则抽取创新研究评价句。分别从标志词、类型、位置等方面... 【目的】依据学术论文全文抽取创新研究评价句,分析创新研究评价句的特征与规律。【方法】以图书情报档案学科为例,将学术期刊论文全文作为实验数据,通过选取标志词、制定抽取规则抽取创新研究评价句。分别从标志词、类型、位置等方面分析创新研究评价句的分布情况。【结果】抽取的创新研究评价句主要可分为6个类型,大多出现在论文前24.8%的位置。【局限】创新研究评价句的抽取方法有待优化。【结论】图书情报档案领域的创新研究评价句以概念理论类为主,不同期刊的评价句类型也存在差异,模型方法类的评价句位置分布较为分散。 展开更多
关键词 创新研究评价句 信息抽取 学术评价 学术论文全文分析
基于改进的隐马尔科夫模型的网页新闻关键信息抽取
19
作者 刘志强 都云程 施水才 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期120-128,共9页
【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究... 【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。 展开更多
关键词 信息抽取 隐马尔科夫模型 机器学习 DOM树
综合素质测评系统的设计与实现 预览
20
作者 丁航奇 薛程元 +1 位作者 欧庆峰 王绍卿 《科技视界》 2019年第16期129-131,共3页
为了提高计算学生综合测评成绩的效率,实现方便快捷的数据管理和维护,开发了一套功能丰富、使用方便的学生综合测评系统。系统可以对学生提交的Excel格式的数据进行智能抽取、合并、统计,然后存储到数据库中,可以方便地对数据进行更新,... 为了提高计算学生综合测评成绩的效率,实现方便快捷的数据管理和维护,开发了一套功能丰富、使用方便的学生综合测评系统。系统可以对学生提交的Excel格式的数据进行智能抽取、合并、统计,然后存储到数据库中,可以方便地对数据进行更新,最后可以根据不同需要导出相应的报表。本系统利用计算机进行学生综合测评管理代替了原有的人工管理方式,节省人力、物力,并且易于操作,可以更加方便快捷地对学生成绩数据进行管理和计算,极大地提高了管理的效率。 展开更多
关键词 综合测评 管理系统 信息抽取
在线阅读 下载PDF
上一页 1 2 59 下一页 到第
使用帮助 返回顶部 意见反馈