期刊文献+
共找到710篇文章
< 1 2 36 >
每页显示 20 50 100
基于话题标签的微博热点话题演化研究
1
作者 李慧 王丽婷 《情报科学》 CSSCI 北大核心 2019年第1期30-36,共7页
【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演... 【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演化的优势以及微博的"话题标签"的特性提出适合微博的热点话题演化模型LOLDA(Label On-line Latent Dirichlet Allocation),然后通过Python编程爬取了新浪微博的数据,从话题内容和强度两方面分析了话题演化规律,并对话题内容演化规律进行了可视化展示。【结果/结论】改进的LOLDA模型可以准确地发现微博话题演化规律,通过实验验证了本文提出的模型较传统模型具有更好地泛化能力。 展开更多
关键词 话题演化 话题标签 主题模型 微博话题
结合字词向量的主题向量模型
2
作者 张青 韩立新 刘合兵 《电子测量技术》 2019年第3期49-53,共5页
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题... 为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。 展开更多
关键词 主题模型 字向量 主题向量 词向量 文档向量 字词嵌入
结合全局和局部约束的sLDA铁路扣件分类模型 预览
3
作者 杨飞 罗建桥 李柏林 《计算机应用》 CSCD 北大核心 2019年第3期888-893,共6页
针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分... 针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分布;然后,计算测试主题分布,将测试图像的类别概率作为全局约束,将测试图像子块与训练图像子块的主题相似程度作为局部约束;最后,以全局和局部约束的乘积为更新权值,对训练主题分布加权求和得到新的测试主题分布,并在Softmax分类器中得到测试图像的分类结果。实验结果表明,glc-sLDA模型能表达扣件结构信息,与sLDA相比,各类别的扣件图像区分性增强,分类误检率减小了55%。 展开更多
关键词 铁路扣件分类 监督潜在狄利克雷分布 主题模型 单词标注 目标结构 更新主题分布
在线阅读 下载PDF
面向复杂主题建模的流式层次狄里克雷过程 预览
4
作者 韩忠明 张梦玫 +2 位作者 李梦琪 段大高 陈谊 《计算机学报》 EI CSCD 北大核心 2019年第7期1539-1552,共14页
互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基... 互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基于LDA的方法没有考虑到主题之间的层次关系,且需要预先提供主题个数.作为LDA模型的扩展,层次狄里克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯主题模型,HDP能够自动确定主题个数.对于具有层次等特性的复杂主题,HDP难以挖掘出隐式层次结构,且容易产生噪音主题.为了解决这个问题,该文提出了基于HDP改进的非参数贝叶斯模型:流式层次狄里利克雷过程(Flow Hierarchical Dirichlet Process,FHDP),FHDP通过在HDP模型中加入流动操作,加强了对主题之间的同属领域信息的利用,以便于更好的对主题进行层次分析.利用加入了流动操作的中国连锁餐馆模型(Chinese Restaurant Franchise,CRF)对数据进行建模,设计相应的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)采样方法,以推导FHDP模型的分布参数分布.FHDP的主要贡献在于:(1)对含有层次关系的主题建模时,减少了无意义信息.解决了HDP得到主题不明确的问题,扩大了HDP的应用领域;(2)由于在FHDP中加强了对主题隐含领域信息的利用,主题的层次关系变得更加明确.为了客观衡量FHDP和HDP的性能差异,利用模拟和真实数据进行了大量实验.实验表明,在轮廓系数、主题覆盖度、单字对数似然等指标上,FHDP模型明显优于HDP模型。 展开更多
关键词 层次狄里克雷过程 主题模型 非参数贝叶斯模型 马尔可夫蒙特卡罗 流式层次狄里克雷过程
在线阅读 下载PDF
融合主题模型和卷积神经网络的APP推荐研究
5
作者 王杰 唐菁荟 +1 位作者 王昊 邓三鸿 《情报理论与实践》 CSSCI 北大核心 2019年第4期158-165,共8页
[目的/意义]将主题模型与卷积神经网络进行结合,以实现APP的个性化推荐,并缓解评分数据稀疏性问题。[方法/过程]提出TMCNN模型,针对文本内容,通过用户和APP双通道的卷积神经网络获取卷积语义特征,同时使用LDA模型获取主题特征,并与用户... [目的/意义]将主题模型与卷积神经网络进行结合,以实现APP的个性化推荐,并缓解评分数据稀疏性问题。[方法/过程]提出TMCNN模型,针对文本内容,通过用户和APP双通道的卷积神经网络获取卷积语义特征,同时使用LDA模型获取主题特征,并与用户和APP的数值特征组合,从而预测用户对APP的评分,进而推荐。[结果/结论]通过360手机助手数据集的测试,从RMSE,召回率,NDCG三个指标进行分析,TMCNN模型不仅具有良好的评分预测效果,而且APP的推荐结果也相对较好。同时,TMCNN模型也丰富了APP推荐的研究方法。[局限]没有考虑APP的权限信息,评论信息的有用性,以及TMCNN模型的优化函数有待改进。 展开更多
关键词 APP推荐 LDA模型 卷积神经网络 主题模型
基于虚拟学术社区的知识聚合模型构建研究
6
作者 张连峰 李慧 遆云鹤 《情报科学》 CSSCI 北大核心 2019年第6期55-60,74共7页
【目的/意义】优化虚拟学术社区的知识聚合模型能够构建优质的资源获取平台,实现知识的共享和创新。【方法/过程】结合学术社区用户的相关知识需求分析,提出了虚拟学术社区知识聚合的目标--知识共享、知识管理、知识创新和知识推送;进... 【目的/意义】优化虚拟学术社区的知识聚合模型能够构建优质的资源获取平台,实现知识的共享和创新。【方法/过程】结合学术社区用户的相关知识需求分析,提出了虚拟学术社区知识聚合的目标--知识共享、知识管理、知识创新和知识推送;进而又提出了基于主题的虚拟学术社区知识聚合模型和基于SECI的虚拟学术社区知识聚合模型,并对这两种模型的相关理论进行了深入细致的剖析,在结合理论学习与创新的基础上建立了融合主题与SECI模型的虚拟学术社区知识聚合整体模型构架。【结果/结论】实现了对当前的知识聚合模型的优化,推动虚拟学术社区知识聚合模型理论的深入性和普适性发展,为提升虚拟学术社区知识聚合的水平提供实践参考。 展开更多
关键词 虚拟学术社区 知识聚合 聚合模型 主题模型
政府数据开放平台用户评论情感差异分析 预览
7
作者 刘桂琴 《数字图书馆论坛》 CSSCI 2019年第2期18-23,共6页
根据用户在政府数据开放平台的评论反馈,通过主题分类进行情感分析,明确平台提供服务的用户满意度及存在的问题,为优化开放数据平台的建设提供新的分析思路。利用LDA模型对武汉市政府数据开放网站的用户评论数据进行主题提取,结合深度... 根据用户在政府数据开放平台的评论反馈,通过主题分类进行情感分析,明确平台提供服务的用户满意度及存在的问题,为优化开放数据平台的建设提供新的分析思路。利用LDA模型对武汉市政府数据开放网站的用户评论数据进行主题提取,结合深度神经网络进行评论分类,并在此基础上进行情感分析,对不同类型的评论情感差异进行探讨。LDA模型共提取9个分类主题,结合情感分析结果,2个主题的情感趋向是满意状态,7个主题的情感趋向是一般或不满意状态,根据分析结果总结平台服务中存在的不足,并提出相应的优化策略。 展开更多
关键词 主题模型 政府数据开放平台 情感分析 情感差异
在线阅读 下载PDF
有监督主题模型的SLDA-TC文本分类新方法 预览
8
作者 唐焕玲 窦全胜 +2 位作者 于立萍 宋英杰 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1300-1308,共9页
本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其... 本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 展开更多
关键词 文本分类 主题模型 隐含Dirichlet分布 吉布斯采样
在线阅读 下载PDF
基于主题模型的网络信息源可视化分析研究 预览
9
作者 刘少俊 方延风 《图书情报导刊》 2019年第3期32-39,共8页
在科技情报收集过程中,网络信息源来源广泛且数据量庞大,对人工分析造成了巨大的压力。对从网络信息源采集的网页进行文本提取,过滤无关信息,使用主题模型对文本进行主题抽取,对抽取的主题进行可视化分析,提取出与需求相关的主题后对信... 在科技情报收集过程中,网络信息源来源广泛且数据量庞大,对人工分析造成了巨大的压力。对从网络信息源采集的网页进行文本提取,过滤无关信息,使用主题模型对文本进行主题抽取,对抽取的主题进行可视化分析,提取出与需求相关的主题后对信息源进行分类分析。这一流程增强了信息处理能力,提高了情报收集的效率。 展开更多
关键词 科技情报 信息源 主题模型 爬虫 自然语言处理
在线阅读 下载PDF
融合语义线索和时空主题的社交媒体动态话题提取 预览
10
作者 万红新 《现代信息科技》 2019年第5期27-29,共3页
基于中文文本的复杂语境结构,同时考虑话题的动态变化性,利用语义线索和时空主题模型来提取话题的关键词语链。结合语义知识和时间约束的主题模型可以有效对社交媒体文本大数据进行分析和处理,以获取潜在的话题知识。
关键词 语义线索 主题模型 社交媒体 动态话题
在线阅读 下载PDF
基于改进LDA主题模型的中日美氢能产业链技术布局研究 预览
11
作者 李昌 吴红 +2 位作者 伊惠芳 韩盟 冀方燕 《情报杂志》 CSSCI 北大核心 2019年第7期78-84,110共8页
[目的/意义]氢能技术主要掌握于中日美三国,研究中日美在氢能领域产业链上的技术布局,对于科学制定技术创新战略、抢占发展制高点具有重要意义。[方法/过程]在赋予技术词产业链与IPC语义的基础上,构建WIC-I-LDA主题模型挖掘氢能领域技... [目的/意义]氢能技术主要掌握于中日美三国,研究中日美在氢能领域产业链上的技术布局,对于科学制定技术创新战略、抢占发展制高点具有重要意义。[方法/过程]在赋予技术词产业链与IPC语义的基础上,构建WIC-I-LDA主题模型挖掘氢能领域技术主题,并运用改进的综合主题强度计算模型,计算三国在各产业链、技术主题的研究热度,依此对氢能技术布局及各国优势、短板和发展趋势进行深度分析。[结果/结论]研究表明:中日美三国基本处于同步发展阶段,都注重氢能的制备与应用,但也各有侧重:中国技术布局优势主要集中在氢能制备,日本优势主要集中在氢能的纯化与应用,美国优势主要集中在氢能储运,金属及其氧化物制氢、甲醇制氢、液化储氢与金属氧化物储氢技术主题是三国共同的关注点,均呈上升趋势。 展开更多
关键词 氢能 中日美 产业链 技术布局 主题模型
在线阅读 下载PDF
“一带一路”倡议海外传播分析——基于对主要国际媒体的文本挖掘方法 预览
12
作者 李倩倩 李瑛 刘怡君 《情报杂志》 CSSCI 北大核心 2019年第3期121-126,132共7页
[目的/意义]了解国际主流媒体如何建构“一带一路”倡议,有利于把握“一带一路”倡议在国际传播的议程设置方向。[方法/过程]以CNN、BBC、半岛电视台(AJ)、今日俄罗斯(RT)关于倡议的新闻报道为研究对象,利用主题模型、文档相似性等文本... [目的/意义]了解国际主流媒体如何建构“一带一路”倡议,有利于把握“一带一路”倡议在国际传播的议程设置方向。[方法/过程]以CNN、BBC、半岛电视台(AJ)、今日俄罗斯(RT)关于倡议的新闻报道为研究对象,利用主题模型、文档相似性等文本挖掘方法,探析国际主流媒体的报道重点和相似关联性。[结果/结论]发现:在内容上,国际媒体更多关注倡议落实过程中面临的严峻挑战和对国际社会上产生的影响;在参与度上,国际媒体援引中国国家主流媒体信源的内容不多,中国智库和研究者的声音比较薄弱;在相似性上,CNN、BBC、AJ享有更多的相似议程设置,而RT则相对独立。最后,提出增强“一带一路”倡议海外传播能力的建议。 展开更多
关键词 "一带一路"倡议 海外传播 文本挖掘 主题模型 文本相似性
在线阅读 下载PDF
一种文本挖掘和文献计量的科技论文评估方法
13
作者 王莉军 姚长青 刘志辉 《情报科学》 CSSCI 北大核心 2019年第5期66-70,共5页
【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用频率计算得到训练论文的质量... 【目的/意义】随着我国科技水平的不断提升,越来越多的科研人员致力于研究如何客观有效地评估科技论文的质量。【方法/过程】本文提出了基于文本挖掘和文献计量的科技论文评估方法,该方法首先利用论文的引用频率计算得到训练论文的质量,其次分别使用LSI和LDA方法来计算新论文和训练论文之间的相似度,设计论文质量评估算法,根据训练论文的质量和论文间的相似度加权计算得到新论文的质量评价值。【结果/结论】在涉及多主题和单一主题的数据集上的实验结果表明,本文提出的方法能够适用于包含多个主题的论文集,其计算出来的论文质量值真实有效。 展开更多
关键词 科技论文 潜在语义索引 主题模型
多特征融合的兴趣点推荐算法 预览
14
作者 涂飞 《智能系统学报》 CSCD 北大核心 2019年第4期779-786,共8页
基于位置社交网络的兴趣点推荐越来越受到工业界和学术界的关注。由于用户签到数据集的稀疏性以及签到地理位置的聚集性,使得目前的推荐算法效率普遍不高,特别是当用户外出到新的地点时,推荐效果更是急剧下降。因此本文提出了一种基于... 基于位置社交网络的兴趣点推荐越来越受到工业界和学术界的关注。由于用户签到数据集的稀疏性以及签到地理位置的聚集性,使得目前的推荐算法效率普遍不高,特别是当用户外出到新的地点时,推荐效果更是急剧下降。因此本文提出了一种基于用户区域内容主题的多特征联合推荐算法(UCRTM),以隐主题模型为基础,在统一的框架下利用隐含因子关联性融合了用户的偏好、兴趣点的内容以及兴趣点所属地理区域主题等信息来进行推荐,使得用户无论身处何地,都能获得理想的推荐服务。本文在两种真实的数据集上进行了实验,结果表明该方法不仅能够克服数据的稀疏性以及弱语义性等问题,而且与其他方法相比具有更高的推荐准确率。 展开更多
关键词 位置社交网络 兴趣点推荐 主题模型 困惑度 稀疏性 聚集性 协同过滤 特征融合
在线阅读 下载PDF
基于关键词加权的法律文本主题模型研究 预览
15
作者 张扬武 李国和 王立梅 《计算机与数字工程》 2019年第5期1170-1174,1228共6页
为了降低法律文本中的无关词语对分类的影响和突出法律关键词汇的作用,采用主题模型建立一种基于法律词汇加权的文本分类模型。针对不同类别的法律文本的关键词的不同,在主题模型中提出了按关键词标记词到主题的文本集,并进行权值学习,... 为了降低法律文本中的无关词语对分类的影响和突出法律关键词汇的作用,采用主题模型建立一种基于法律词汇加权的文本分类模型。针对不同类别的法律文本的关键词的不同,在主题模型中提出了按关键词标记词到主题的文本集,并进行权值学习,用权值更新文档到主题的分布,从而提高了文档相似度计算的准确性。通过在Westlaw真实数据集上的计算分析,与传统的主题模型相比,加权的主题模型可以获得较好的困惑度和文本相似度。 展开更多
关键词 主题模型 法律文本 关键词 加权 困惑度
在线阅读 下载PDF
基于主题模型对象判别特征的场景识别 预览
16
作者 熊继平 叶童 叶灵枫 《信息技术与网络安全》 2019年第1期49-53,共5页
为了解决场景识别中存在的类内差异性与类间相似性问题,提出一种基于主题模型的对象判别特征的场景识别方法。首先,使用双卷积神经网络模型提取图像的全局空间特征和对象特征;然后用主题模型的方法对对象特征进行描述,将非欧几里得空间... 为了解决场景识别中存在的类内差异性与类间相似性问题,提出一种基于主题模型的对象判别特征的场景识别方法。首先,使用双卷积神经网络模型提取图像的全局空间特征和对象特征;然后用主题模型的方法对对象特征进行描述,将非欧几里得空间中的判别向量投影到欧几里得空间,得到对象判别图像描述符;最后将全局空间特征和对象判别图像描述符相融合,并采用分类器进行分类。实验结果表明,所提出的方法具有更好的场景分类性能。 展开更多
关键词 主题模型 场景识别 空间金字塔匹配 深度学习
在线阅读 下载PDF
基于研究主题的学科领域知识演化路径识别——以图书情报领域粗糙集为例
17
作者 焦红 李秀霞 《情报理论与实践》 CSSCI 北大核心 2019年第3期101-106,共6页
[目的/意义]对学科领域知识演化路径进行可视化研究,可以帮助研究人员快速发现学科领域中的核心文献和关键主题,把握研究主题的演变趋势。[方法/过程]文章将主路径分析方法与文本挖掘技术相结合,以图书情报(ISLS)领域的粗糙集研究方向为... [目的/意义]对学科领域知识演化路径进行可视化研究,可以帮助研究人员快速发现学科领域中的核心文献和关键主题,把握研究主题的演变趋势。[方法/过程]文章将主路径分析方法与文本挖掘技术相结合,以图书情报(ISLS)领域的粗糙集研究方向为例,识别其核心文献,同时基于向量空间模型对核心文献进行补充,并利用主题模型提取主题,继而绘制知识演化路径图。[结果/结论]研究结果表明:知识演化路径能够全面、细致地展示学科领域的知识内容。该路径不仅能够展示学科领域的不同研究主题、热点主题、核心文献间的关联、研究主题和研究方法的演化趋势,还能够呈现学科领域研究的跨学科特征。 展开更多
关键词 学科领域 知识演化路径 文献相似度 主题模型 文本挖掘
基于多重关系主题模型的Web服务聚类方法 预览
18
作者 石敏 刘建勋 +2 位作者 周栋 曹步清 文一凭 《计算机学报》 EI CSCD 北大核心 2019年第4期820-836,共17页
如何有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一.随着Internet上Web服务数量的不断增加,服务的自动发现面临着极大的挑战.将功能相似的Web服务进行聚类是一种有效的服务发现与服务管理方法.目前国内外主流的方... 如何有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一.随着Internet上Web服务数量的不断增加,服务的自动发现面临着极大的挑战.将功能相似的Web服务进行聚类是一种有效的服务发现与服务管理方法.目前国内外主流的方法为挖掘Web服务的隐含功能语义信息,如使用LDA主题模型训练提取Web服务功能描述文档的主题信息,然后基于某种聚类算法如K-means将隐含主题分布相似的Web服务聚为一类.然而,Web服务的功能描述文档通常短小,目前大部分主题模型无法对短文本进行良好地建模,从而影响了Web服务聚类的效果.针对该问题,文中提出了一种考虑多重Web服务关系的概率主题模型MR-LDA,其可对Web服务之间相互组合的关系以及Web服务之间共享标签的关系进行建模,能有效提高Web服务聚类的精度.同时,基于该MR-LDA主题模型进一步提出了一种有效的Web服务聚类算法MR-LDA+,该算法首先利用上述多重Web服务关系信息对Web服务隐含主题分布概率矩阵进行修正,然后根据这些隐含主题对Web服务进行聚类.基于ProgrammableWeb收集的真实数据实验表明,文中所提出的方法明显优于其它Web服务聚类算法. 展开更多
关键词 WEB服务 聚类 多重关系网络 先验知识 主题模型
在线阅读 下载PDF
基于主题模型的古典乐器诗词文本挖掘 预览
19
作者 申资卓 杨莹 邵艳秋 《中文信息学报》 CSCD 北大核心 2019年第3期79-86,共8页
古代先贤将乐器按其制作材料分为八类,《周礼·春官·大师》中记载“皆播之以八音:金石土革丝木匏竹。”该文将《全唐诗》、《全宋词》中有关“八音”的诗句、词句作为研究对象,使用基于LDA和NMF的主题挖掘、基于Author-Topic-M... 古代先贤将乐器按其制作材料分为八类,《周礼·春官·大师》中记载“皆播之以八音:金石土革丝木匏竹。”该文将《全唐诗》、《全宋词》中有关“八音”的诗句、词句作为研究对象,使用基于LDA和NMF的主题挖掘、基于Author-Topic-Model的作者相似度计算等方法。从宏观到微观,从整体诗词到具体诗人/词人,从主题的聚类、动词形容词的抽取到具体诗人词人作品相似度的计算,多维度、多层次、多角度研究了唐诗宋词中的中国古典乐器。 展开更多
关键词 唐诗宋词 “八音” 主题模型
在线阅读 下载PDF
基于Sentence-LDA主题模型的短文本分类 预览
20
作者 张浩 钟敏 《计算机与现代化》 2019年第3期102-106,共5页
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet... 短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。 展开更多
关键词 短文本分类 Sentence-LDA 主题模型 特征扩展 SVM
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部 意见反馈