期刊文献+
共找到2,557篇文章
< 1 2 128 >
每页显示 20 50 100
中文文本分类方法研究 预览
1
作者 李凯 《电脑知识与技术:学术版》 2019年第2期242-244,共3页
由于现实生活中大多数信息被存储为文本,因此文本挖掘具有在商业上的高潜在价值。实际应用中可以从许多信息来源中挖掘知识,然而,非结构化文本仍然是最容易获得的知识来源。该文介绍了文本分类的过程以及对三种分类器的概述,并在最后对... 由于现实生活中大多数信息被存储为文本,因此文本挖掘具有在商业上的高潜在价值。实际应用中可以从许多信息来源中挖掘知识,然而,非结构化文本仍然是最容易获得的知识来源。该文介绍了文本分类的过程以及对三种分类器的概述,并在最后对三种分类器分别实验,以及对实验结果分析得知本实验环境下支持向量机分类器的分类效果要好于另外两种分类器。 展开更多
关键词 文本分类 本表示 特征选择 权重 文本分类
在线阅读 下载PDF
一种改进的类别区分词特征选择算法 预览
2
作者 李富星 蒙祖强 《计算机与现代化》 2019年第3期73-77,共5页
传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调... 传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。 展开更多
关键词 文本分类 特征选择 平衡因子 别区分词
在线阅读 下载PDF
基于知识块摘要和词转移距离的高效司法文档分类 预览
3
作者 马建刚 张鹏 马应龙 《计算机应用》 CSCD 北大核心 2019年第5期1293-1298,共6页
随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效... 随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效率。针对面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能低问题,提出一种基于司法知识块摘要和词转移距离(WMD)的高效司法文档分类方法。首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要;然后基于司法文本的知识块摘要利用WMD进行司法文档相似度计算;最后利用K最近邻算法进行司法文本分类。以两个典型罪名的案件文档集作为实验数据,与传统的WMD文档相似度计算方法进行对比,实验结果表明,所提方法能明显提高司法文本分类的正确率(分别有5.5和9.9个百分点的提升),同时也降低了文档分类所需的时间(速度分别提升到原来的52.4和89.1倍)。 展开更多
关键词 智慧检务 领域本体模型 文本分类 相似度计算 知识块摘要 词转移距离
在线阅读 下载PDF
中国海关HS编码风险的识别研究
4
作者 张紫玄 王昊 +1 位作者 朱立平 邓三鸿 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第1期72-84,共13页
【目的】利用HS编码数据中所蕴含的规律,为海关税收风险判断分析提供有效的知识服务。【方法】提出直接以HS编码作为风险判别目标和以HS编码正误作为风险判别目标两种基于机器学习的自动分类方案解决HS编码风险判断问题,针对编码目标的... 【目的】利用HS编码数据中所蕴含的规律,为海关税收风险判断分析提供有效的知识服务。【方法】提出直接以HS编码作为风险判别目标和以HS编码正误作为风险判别目标两种基于机器学习的自动分类方案解决HS编码风险判断问题,针对编码目标的结构、特征的性质、文本的长短等特征构建与方案对应的SVM预测模型并进行相应实验。【结果】对以HS编码作为判别目标和以HS编码正误作为判别目标两种预测海关报关风险方案进行探讨与分析,发现后者对训练数据的要求更低,预测速度更快,风险的识别效果也更好。【局限】仅获得4个月的数据,可能存在样本代表性不足的问题。【结论】最终经过测试获得风险预测率较高的分类器,为形成可实用的分类模型和判别系统提供了良好的知识基础。 展开更多
关键词 风险识别 HS编码预测 SVM算法 文本分类 机器学习
基于朴素贝叶斯算法的物理题题型分类 预览
5
作者 王世博 《电子测试》 2019年第3期47-49,116共4页
自然语言处理(Natural Language Processing,NLP)是目前人工智能研究领域中的一个热门方向,而文本处理是自然语言处理的一个具体任务,指使用计算机借助人工智能技术对文本语言进行处理的相关技术以及应用。本文针对中文文本分类,首先阐... 自然语言处理(Natural Language Processing,NLP)是目前人工智能研究领域中的一个热门方向,而文本处理是自然语言处理的一个具体任务,指使用计算机借助人工智能技术对文本语言进行处理的相关技术以及应用。本文针对中文文本分类,首先阐述了朴素贝叶斯算法的基本原理,然后分析研究了文本处理技术,具体包括利用jieba工具库进行中文分词、构建文本词向量模型及特征权重策略等关键技术,最后根据采集的真实物理题数据集进行了模型训练及测试实验来验证分类效果。本文通过实验表明,基于朴素贝叶斯算法的机器学习分类器模型可以有效地实现物理题题型分类,并给出了相应的查准率及查全率。 展开更多
关键词 机器学习 文本分类 朴素贝叶斯 题型分
在线阅读 下载PDF
基于文档结构的特征权重计算方法研究 预览
6
作者 罗衎 马佳佳 《软件导刊》 2019年第5期65-68,共4页
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验... 针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。 展开更多
关键词 文本分类 向量空间模型 档结构 特征权重 特征选择
在线阅读 免费下载
基于Spark框架XGBoost的林业文本并行分类方法研究 预览
7
作者 崔晓晖 师栋瑜 +1 位作者 陈志泊 许福 《农业机械学报》 EI CAS CSCD 北大核心 2019年第6期280-287,共8页
针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法... 针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0.9234,在各类别中最低F1为0.8604,最高为0.9984;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。 展开更多
关键词 林业 文本分类 大数据分析 SPARK XGBoost
在线阅读 下载PDF
基于支持向量机的文本分类 预览
8
作者 李芸初 《中国新技术新产品》 2019年第1期23-24,共2页
文本分类是自然语言处理中的一项重要任务,用计算机做文本分类能够大大提高文本分类效率,方便人们的生活,该文主要介绍如何用支持向量机做文本分类。该文前面主要介绍文本分类背景、意义和应用,之后对中文分词、文档建模、分类器训练和... 文本分类是自然语言处理中的一项重要任务,用计算机做文本分类能够大大提高文本分类效率,方便人们的生活,该文主要介绍如何用支持向量机做文本分类。该文前面主要介绍文本分类背景、意义和应用,之后对中文分词、文档建模、分类器训练和评估原理做了重点介绍,包括了自然语言处理中的统计语言模型,机器学习中的SVM算法、NNLM模型。 展开更多
关键词 档建模 文本分类 SVM算法 分词
在线阅读 下载PDF
AM-CNN:一种基于注意力的卷积神经网络文本分类模型
9
作者 王吉俐 彭敦陆 +1 位作者 陈章 刘丛 《小型微型计算机系统》 CSCD 北大核心 2019年第4期710-714,共5页
目前,大多数公开的文本分类数据集是相对平衡的,但对于真实文本分布来说,通常会出现类别极端不平衡的情况,这样的数据集会对模型训练产生影响.针对该问题,论文提出了一种基于卷积神经网络和注意力机制的文本分类算法--AM-CNN(Convolutio... 目前,大多数公开的文本分类数据集是相对平衡的,但对于真实文本分布来说,通常会出现类别极端不平衡的情况,这样的数据集会对模型训练产生影响.针对该问题,论文提出了一种基于卷积神经网络和注意力机制的文本分类算法--AM-CNN(Convolutional Neural Network with Attention Mechanism).算法利用循环神经网络捕捉文本的上下文信息,通过引入注意力机制得到文本类别的特征向量矩阵后运用卷积神经网络模型完成文本的分类,以降低在文本分类的训练过程中对小类别的不公平.实验结果表明,该算法对于提高文本分类的精度有较显著的效果. 展开更多
关键词 文本分类 循环神经网络 注意力机制 卷积神经网络 不平衡
融合self-attention机制的卷积神经网络文本分类模型
10
作者 邵清 马慧萍 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1137-1141,共5页
传统的文本分类算法采用词向量表示文本,忽视了上下文语境中词义的变化.本文通过引入self-attention机制处理词向量,提出一种卷积神经网络模型与关键词提取技术相结合的文本分类模型.该模型对文档进行self-attention操作,以抽取关键信息... 传统的文本分类算法采用词向量表示文本,忽视了上下文语境中词义的变化.本文通过引入self-attention机制处理词向量,提出一种卷积神经网络模型与关键词提取技术相结合的文本分类模型.该模型对文档进行self-attention操作,以抽取关键信息,构建文档特征图,根据卷积神经网络模型和关键词提取技术实现特征向量的分类.在真实数据集上进行性能分析,并与循环神经网络模型、长短时记忆网络模型进行比较,结果表明该分类模型有效地提高了分类的准确性. 展开更多
关键词 文本分类 卷积神经网络 自注意力机制 关键词提取技术
基于Transfer-SVM多标签文本分类算法研究 预览
11
作者 李程文 宋文广 谭建平 《无线互联科技》 2019年第10期102-103,共2页
传统的支持向量机分类模型只有在利用大量已标注数据进行训练才能获得较高精度。在实际应用中,多标签数据相对于传统单标签数据更具有价值,但多标签数据中含有大量冗余数据,获取大量多标签数据难度非常大。文章提出一种基于迁移学习的... 传统的支持向量机分类模型只有在利用大量已标注数据进行训练才能获得较高精度。在实际应用中,多标签数据相对于传统单标签数据更具有价值,但多标签数据中含有大量冗余数据,获取大量多标签数据难度非常大。文章提出一种基于迁移学习的分类算法,利用目标数据域和源数据域的相关性,从源数据域中选取对分类超平面起关键作用的支持向量和目标数据域,一起训练分类模型以提高分类精度。 展开更多
关键词 多标签 迁移学习 文本分类 支持向量机
在线阅读 下载PDF
WordNG-Vec:一种应用于CNN文本分类的词向量模型
12
作者 王勇 何养明 +2 位作者 邹辉 黎春 陈荟西 《小型微型计算机系统》 CSCD 北大核心 2019年第3期499-502,共4页
文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为... 文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为此,本文提出了一种结合N-Gram特征与Word2vec的词向量模型WordNG-Vec,其提取出的词向量(Word-NG向量),作为双通道卷积神经网络模型(DC-CNN)的输入.经过多组对比实验分析表明,在精确率(precision)和召回率(recall)和F1值三个评价指标下,本文提出的方法有效提高文本分类的效果. 展开更多
关键词 文本分类 词向量 DC-CNN N-Gram特征
一种新的样本选择算法及其在文本分类中的应用 预览
13
作者 万中英 王明文 +1 位作者 左家莉 刘长红 《江西师范大学学报:自然科学版》 CAS 北大核心 2019年第1期76-83,共8页
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档... 在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳. 展开更多
关键词 边界样本 样本选择 文本分类 支持向量机 K近邻
在线阅读 下载PDF
基于注意力CNLSTM模型的新闻文本分类 预览
14
作者 刘月 翟东海 任庆宁 《计算机工程》 CAS CSCD 北大核心 2019年第7期303-308,314共7页
结合卷积神经网络(CNN)和嵌套长短期记忆网络(NLSTM)2种模型,基于注意力机制提出一个用于文本表示和分类的CNLSTM模型。采用CNN提取短语序列的特征表示,利用NLSTM学习文本的特征表示,引入注意力机制突出关键短语以优化特征提取的过程。... 结合卷积神经网络(CNN)和嵌套长短期记忆网络(NLSTM)2种模型,基于注意力机制提出一个用于文本表示和分类的CNLSTM模型。采用CNN提取短语序列的特征表示,利用NLSTM学习文本的特征表示,引入注意力机制突出关键短语以优化特征提取的过程。在3个公开新闻数据集中进行性能测试,结果表明,该模型的分类准确率分别为96.87 %、95.43 %和97.58 %,其性能比baseline方法有显著提高。 展开更多
关键词 卷积神经网络 特征表示 嵌套长短期记忆网络 注意力机制 文本分类
在线阅读 下载PDF
社交网络用户敏感属性迭代识别方法
15
作者 谢小杰 梁英 董祥祥 《山东大学学报:理学版》 CAS CSCD 北大核心 2019年第3期10-17,27共9页
分析识别社交网络用户敏感信息,有利于从技术上量化隐私泄露程度,进行隐私保护。针对现有的用户属性识别方法需要对用户属性取值进行强假设的问题,结合RL迭代分类框架和扩展wvRN关系识别的方法,提出了一种社交网络用户敏感属性迭代识别... 分析识别社交网络用户敏感信息,有利于从技术上量化隐私泄露程度,进行隐私保护。针对现有的用户属性识别方法需要对用户属性取值进行强假设的问题,结合RL迭代分类框架和扩展wvRN关系识别的方法,提出了一种社交网络用户敏感属性迭代识别方法。通过卷积神经网络提取用户文本特征进行识别,结合邻居结点迭代地进行关系识别,不仅弱化了对用户属性的假设,而且提高了可用性。实验结果表明,通过在社交网络中获取少量的标注数据,对迭代识别方法设置合理的参数值,可以获得较好的用户敏感属性识别结果。 展开更多
关键词 社交网络 文本分类 社交链接 属性识别 数据挖掘
基于深度学习的法院信息文本分类 预览
16
作者 杨帆 陈建峡 +2 位作者 郑吟秋 黄煜俊 李超 《湖北工业大学学报》 2019年第4期63-67,共5页
为解决在法院数据信息化过程中,海量的法院文书存在缺乏自动管理分类的问题,提出一种基于字符级卷积神经网络的文本分类模型。模型通过卷积神经网络进行特征提取,能够精确有效地解决文本分类问题。实验结果证明,该模型可以实现在测试集... 为解决在法院数据信息化过程中,海量的法院文书存在缺乏自动管理分类的问题,提出一种基于字符级卷积神经网络的文本分类模型。模型通过卷积神经网络进行特征提取,能够精确有效地解决文本分类问题。实验结果证明,该模型可以实现在测试集上准确率99.67%的分类,且训练用时只有常用循环神经网络算法的50%。 展开更多
关键词 法院信息 卷积神经网络 字符级 深度学习 文本分类
在线阅读 下载PDF
基于CNN和LSTM的智能文本分类 预览
17
作者 王星峰 《辽东学院学报:自然科学版》 CAS 2019年第2期126-132,共7页
针对文本分类领域的应用,在利用卷积神经网络(CNN)与长短时记忆网络(LSTM)基础上提出一种改进的卷积层技术,将改进后的卷积层技术用于对文本这种一维数据结构的处理,并联合LSTM的区域嵌入技术实现文本的分类。实验结果表明,与传统方法比... 针对文本分类领域的应用,在利用卷积神经网络(CNN)与长短时记忆网络(LSTM)基础上提出一种改进的卷积层技术,将改进后的卷积层技术用于对文本这种一维数据结构的处理,并联合LSTM的区域嵌入技术实现文本的分类。实验结果表明,与传统方法比较,该方法在执行性能和分类精确度方面都有明显的提升。 展开更多
关键词 文本分类 CNN 单词顺序 LSTM
在线阅读 下载PDF
针对文本分类的神经网络模型 预览
18
作者 涂文博 袁贞明 俞凯 《计算机系统应用》 2019年第7期145-150,共6页
文本分类是自然语言处理领域的一项重要任务,具有广泛的应用场景,比如知识问答、文本主题分类、文本情感分析等.解决文本分类任务的方法有很多,如支持向量机(Support Vector Machines,SVM)模型和朴素贝叶斯(Naive Bayes)模型,现在被广... 文本分类是自然语言处理领域的一项重要任务,具有广泛的应用场景,比如知识问答、文本主题分类、文本情感分析等.解决文本分类任务的方法有很多,如支持向量机(Support Vector Machines,SVM)模型和朴素贝叶斯(Naive Bayes)模型,现在被广泛使用的是以循环神经网络(Recurrent Neural Network,RNN)和文本卷积网络(TextConventional Neural Network,TextCNN)为代表的神经网络模型.本文分析了文本分类领域中的序列模型和卷积模型,并提出一种组合序列模型和卷积模型的混合模型.在公开数据集上对不同模型进行性能上的对比,验证了组合模型的性能要优于单独的模型. 展开更多
关键词 文本分类 自然语言处理 神经网络
在线阅读 下载PDF
基于三元组文档表示的文本分类 预览
19
作者 冯雪 《计算机工程与设计》 北大核心 2019年第2期394-398,共5页
为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。基于三元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展三元组的语义表示。该方法... 为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。基于三元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展三元组的语义表示。该方法在完全相同且不使用外部知识的实验设置下,能显著提升文本分类的性能;当词向量特征被利用后,文本分类性能增强了约0.8%;当融入自动抽取的外部背景三元组知识后,进一步带来了1.2%的性能提升。 展开更多
关键词 档表示 文本分类 分布式语义 三元组 外部知识
在线阅读 下载PDF
计算机技术文本分类中的语义分析算法的实践探讨 预览
20
作者 杨凡 任丹 丁函 《软件》 2019年第6期78-80,共3页
大数据时代的到来,为人们带来大量的文本信息,而如何在文本信息中搜寻有效信息,成为人们关注重点。文本分类技术是一项以人工技能为基础的新型技术,其能够根据语义分析将计算机技术文本进行科学分类,帮助人们获得其想要的信息,满足群众... 大数据时代的到来,为人们带来大量的文本信息,而如何在文本信息中搜寻有效信息,成为人们关注重点。文本分类技术是一项以人工技能为基础的新型技术,其能够根据语义分析将计算机技术文本进行科学分类,帮助人们获得其想要的信息,满足群众的需求。对此,文章基于语义分析,探讨了文本分类技术的应用。 展开更多
关键词 语义分析 计算机技术 文本分类
在线阅读 下载PDF
上一页 1 2 128 下一页 到第
使用帮助 返回顶部 意见反馈