首页>>学术检索

基于在线增量学习的自适应聚焦爬虫研究

标题: 基于在线增量学习的自适应聚焦爬虫研究
英文标题: ON ADAPTIVE FOCUSED CRAWLER BASED ON ONLINE INCREMENTAL LEARNING
作者: 朱婷,滕桂法,陆浩,张长利,曾大军
英文作者: ZHU TING,TENG GUIFA,LU HAO,ZHANG CHANGLI,ZENG DAJUN
出版时间: 2009-01-01
机构: 河北农业大学,河北农业大学
关键词: 在线增量学习,TOPICALRANK,聚焦爬虫,农业领域
刊名: 计算机应用与软件
英文刊名: COMPUTER APPLICATIONS AND SOFTWARE
ISSN: 1000-386X
卷号: 005
基金: ^A国家自然科学基金^B6062100;057378^D1%^A中国科学院海外合作伙伴计划项目^B2F05N01^D2
页码: 25-27,33
分类号: TP3
摘要: 在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TOPICALRANK主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.