一种主题爬虫处理方法及装置制造方法及图纸

技术编号：13200790 阅读：53 留言：0更新日期：2016-05-12 10:14

本发明专利技术提供一种主题爬虫处理方法及装置，在获取到网页文档后，至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息，基于这些特征信息对网页文档进行主题相关性分析，得到分类结果，并在基于分类结果将网页文档存储至网页文档集合中的情况下，基于网页文档集合中网页文档增量情况，对主题分类器进行训练，因此在基于主题爬虫爬取的过程中，还可以对于主题爬虫相关的主题分类模型进行训练，使得主题爬虫基于的主题分类模型更接近于搜索主题，这样主题爬虫在基于主题分类模型进行爬取时，爬取到的内容与搜索主题更加相关，从而提高爬取的精确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络爬虫
，更具体的说，尤其设及一种主题爬虫处理方法及装置。
技术介绍
网络爬虫，是一种"自动化浏览网络"的程序，或者说是一种网络机器人，目前网络爬虫已被广泛用于互联网捜索引擎或其他类似网站，其可W自动采集所有捜索引擎或网站中其能够访问到的页面内容，使得用户能够更快的通过网络爬虫检索到需要的信息，并且通过网络爬虫采集到的页面内容可W供捜索引擎或者网站做进一步处理，W使捜索引擎或网站可W基于采集到的页面内容进行训练。在网络爬虫的基础上演变出一种主题爬虫，即主题爬虫作为网络爬虫的一种，其是一种带主题判别模块的网络爬虫，可W根据捜索主题，爬取互联网上与捜索主题相关的网络信息。目前主题爬虫主要是基于关键词或者正则表达式构建，运种方式使其爬取的内容存在低召回率的问题。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种主题爬虫处理方法，用于提高召回率。技术方案如下：本专利技术提供一种主题爬虫处理方法，所述方法包括：获取待爬取队列中统一资源定位符对应的网页文档；从所述网页文档中提取特征信息，其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息W及网页正文特征信息；[000引基于所述特征信息对所述网页文档进行主题相关性分类，得到分类结果；基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中；当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练。优选地，在获取待爬取队列中统...

【技术保护点】
一种主题爬虫处理方法，其特征在于，所述方法包括：获取待爬取队列中统一资源定位符对应的网页文档；从所述网页文档中提取特征信息，其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息；基于所述特征信息对所述网页文档进行主题相关性分类，得到分类结果；基于所述分类结果，确定是否将所述网页文档存储至网页文档集合中；当基于所述分类结果将所述网页文档存储至网页文档集合中时，基于网页文档集合中网页文档增量情况，对与所述主题爬虫相关的主题分类模型进行训练。

【技术特征摘要】

【专利技术属性】
技术研发人员：张晨，邵小亮，谢隆飞，王全礼，
申请(专利权)人：中国建设银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人