期刊文献+

可动态自适应主题爬虫的研究 预览

Research and Implementation of Dynamic Adaptive Topical Crawler
在线阅读 下载PDF
收藏 分享 导出
摘要 针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。 In the face of a dynamically changing Internet,the traditional topical crawlers have problems such as incomplete topical knowledge,domain knowledge updating,topical resource center transfer and so on. In this paper,a topic crawler that can dynamically adapt to Internet information is proposed. In which the TopicHub algorithm can dynamically select seed URLs. Com. pared with the traditional topic crawler of static seed URL,the crawling efficiency increases by more than 7%,and the recall rate in. creases by more than 5%. Additionally,aiming at the problems of the incomplete coverage of the topic information and domain knowledge updating in the static ontology library,an algorithm named SDTP can dynamically expand the domain semantic informa. tion is proposed. Compared with the traditional algorithm which is based on the static ontology library,the precision of the algorithm is improved by 13%,and compared with the algorithm which is based on the VSM,the improvement is 4%.
作者 肖新凤 余伟 李石君 陈亚辉 刘倍雄 刘永明 XIAO Xinfeng;YU Wei;LI Shijun;CHEN Yahui;LIU Beixiong;LIU Beixiong(Guangdong Polytechnic of Environmental Protection Engineering,Foshan 528216;Wuhan University,Wuhan 430070)
出处 《计算机与数字工程》 2019年第5期1151-1159,共9页 Computer & Digital Engineering
基金 国家自然科学基金项目(编号:61502350) 2017广东高校省级重点平台和重大科研项目(编号:2017GKTSCX042)资助。
关键词 主题爬虫 动态自适应 URL图结构 topic crawler dynamic self-adaption URL structure
作者简介 肖新凤,女,硕士研究生,讲师,研究方向:软件技术、大数据、数据挖掘;余伟,男,博士,讲师,研究方向:数据质量评估、数据抽取与数据融合;李石君,男,博士,教授,研究方向:大数据、互联网搜索与挖掘、数据挖掘、数据库技术、移动数据挖掘与时空一致性研究;陈亚辉,男,硕士研究生,工程师,研究方向:数据挖掘、数据库技术;刘倍雄,男,硕士研究生,高级工程师,讲师,研究方向:移动互联技术、数据库技术;刘永明,男,硕士研究生,讲师,研究方向:软件技术,数据库技术。
  • 相关文献

参考文献6

二级参考文献94

  • 1何晓阳,吴治蓉,连丽红,谢永碧.SALSA算法技术剖析[J].情报杂志,2004,23(7):26-27. 被引量:3
  • 2孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量:19
  • 3LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009. 被引量:17
  • 4Hafri Y,Djeraba C.High performance crawling system.In:Proc.of the 6th ACM SIGMM Int'1 Workshop on Multimedia Information Retrieval.New York:ACM Press,2004.299-360. 被引量:1
  • 5A Heydon,M Najork.Mercator:a scalable,extensible web crawler.International conference on World Wide Web.New York:ACM Press,1999.219-229. 被引量:1
  • 6Yan HF,Wang JY,Li XM,Guo L.Architectural design and evaluation of an efficient Web-crawling sysgem[J].Journal of Systems and Software.2002,60(3):185-193. 被引量:1
  • 7J Edwards,K McCurl,J Tomin.An adaptive model for optimizing performance of an incremental web crawler.International conference on World Wide Web.New York:ACM Press,2001.106-113. 被引量:1
  • 8J Cho,H Garcia-Molina.Effective page refresh policies for web crawlers.ACM Transactions on Database Systems.New York:ACM Press,2003.390-426. 被引量:1
  • 9Page L,Brin S,Motwani R.The PageRank Citation Ranking:Bring Oreder to the Web.Technical report,1998. 被引量:1
  • 10Feng G,Liu TY,Wang Y,et al.AggregateRank:bring order to web sites.Proceedings of the 29th annual international ACM SIGIR conference.New York:ACM Press,2006.75-82. 被引量:1

共引文献120

投稿分析

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部 意见反馈