期刊文献+

基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例 预览 被引量:4

Research of Journals Manuscript Categorization Based on KNN Algorithm
在线阅读 免费下载
收藏 分享 导出
摘要 本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen—shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。 Looking the regular subject columns of journals as categories, this work improves KNN algorithm so that it is suitable to categorize manuscript to proper columns to further review with expert in the field. Based on the feature of regular columns of academic journals, this work explains a way how to collect dataset from a journals as corpus; uses Jensen-Shannon Divergence to calculate similarity between documents which is constituted from title, abstract and author keywords; dynamically determine k value; defines evaluation method how to use published papers in the regular subject columns in past years. The results demonstrate a significant F1 score of 77.25%.
作者 李湘东 徐朋 黄莉 沈祥兴 Li Xiangdong etc.
出处 《图书情报知识》 CSSCI 北大核心 2010年第4期71-76,共6页 Document,Information & Knowledge
基金 [基金项目]本文系教育部“留学回国人员科研启动基金”项目(教外留司[2009]1341号)的研究成果之一.
关键词 KNN算法 自动归类 栏目 Jensen—Shannon散度 动态k值 KNN algorithm Categorization Columns Jensen-Shannon divergence Dynamic k value
作者简介 [作者简介]李湘东,男,1963年生,博士,副教授; 徐朋,男,1986年生,硕士研究生; 黄莉,女,1964年生,馆员; 沈祥兴,男,1949年生,教授。
  • 相关文献

参考文献19

  • 1程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量:13
  • 2孙建军等编著..信息检索技术[M].北京:科学出版社,2004:477.
  • 3Y. Yang, X. Lin. A re-examination of text categorization methods. In SIGIR'02: Proceedings of the 22th annual international ACM SIGIR conference on Research and development in information retrieval, pages 42-49. ACM Press, 1999. 被引量:1
  • 4Y. Yang. An evaluation of statistical approaches to to text categorization. Information Retrieval, 1999( 1 ) : 76-88. 被引量:1
  • 5胡传辉.现代科技期刊编辑学[M].长沙:湖南科学技术出版社,2001.274. 被引量:2
  • 6吕震宇,赵爽,林永民.kNN在文本分类中的应用研究[J].计算机与现代化,2008(11):69-72. 被引量:3
  • 7张宁 ,贾自艳 ,史忠植 .使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量:84
  • 8G. Guo,et al. KNN Model-Based Approach in Classification. Coop IS / DOA / ODBASE 2003 : 986-996. 被引量:1
  • 9G. Guo,et al. A KNN Model-Based Approach and Its Application in Text Categorization. CICLing 2004:559-570. 被引量:1
  • 10N. Ye, X. Li. A machine learning algorithm based on supervised clustering and classification. AMT 2001, LNCS 2252,2001:327-334. 被引量:1

二级参考文献31

共引文献107

同被引文献48

引证文献4

二级引证文献14