本发明专利技术提供一种主题爬虫处理方法及装置,在获取到网页文档后,至少从网页文档中提取网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息,基于这些特征信息对网页文档进行主题相关性分析,得到分类结果,并在基于分类结果将网页文档存储至网页文档集合中的情况下,基于网页文档集合中网页文档增量情况,对主题分类器进行训练,因此在基于主题爬虫爬取的过程中,还可以对于主题爬虫相关的主题分类模型进行训练,使得主题爬虫基于的主题分类模型更接近于搜索主题,这样主题爬虫在基于主题分类模型进行爬取时,爬取到的内容与搜索主题更加相关,从而提高爬取的精确率和召回率。
【技术实现步骤摘要】
本专利技术属于网络爬虫
,更具体的说,尤其设及一种主题爬虫处理方法及 装置。
技术介绍
网络爬虫,是一种"自动化浏览网络"的程序,或者说是一种网络机器人,目前网络 爬虫已被广泛用于互联网捜索引擎或其他类似网站,其可W自动采集所有捜索引擎或网站 中其能够访问到的页面内容,使得用户能够更快的通过网络爬虫检索到需要的信息,并且 通过网络爬虫采集到的页面内容可W供捜索引擎或者网站做进一步处理,W使捜索引擎或 网站可W基于采集到的页面内容进行训练。 在网络爬虫的基础上演变出一种主题爬虫,即主题爬虫作为网络爬虫的一种,其 是一种带主题判别模块的网络爬虫,可W根据捜索主题,爬取互联网上与捜索主题相关的 网络信息。目前主题爬虫主要是基于关键词或者正则表达式构建,运种方式使其爬取的内 容存在低召回率的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种主题爬虫处理方法,用于提高召回率。技术 方案如下: 本专利技术提供一种主题爬虫处理方法,所述方法包括: 获取待爬取队列中统一资源定位符对应的网页文档; 从所述网页文档中提取特征信息,其中所述特征信息至少包括网络标题特征信 息、元信息中的关键词特征信息、元信息中的描述特征信息W及网页正文特征信息;[000引基于所述特征信息对所述网页文档进行主题相关性分类,得到分类结果; 基于所述分类结果,确定是否将所述网页文档存储至网页文档集合中; 当基于所述分类结果将所述网页文档存储至网页文档集合中时,基于网页文档集 合中网页文档增量情况,对与所述主题爬虫相关的主题分类模型进行训练。 优选地,在获取待爬取队列中统一资源定位符对应的网页文档之后,所述方法还 包括:判断所述统一资源定位符对应的页面是否是导航页; 如果是,则对所述导航页进行解析,获取所述导航页中的统一资源定位符,并将获 取到的统一资源定位符写入所述待爬取队列中; 如果否,则触发从所述网页文档中提取特征信息的步骤。 优选地,所述从所述网页文档中提取特征信息,包括: 对所述网页文档的标题进行分词,得到第一分词结果,并基于所述第一分词结果, 得到所述标题的一元组集合; 使用第一特征函数,对所述标题中各个词和所述标题的一元组集合的关系进行判 定,得到标题特征向量,所述标题特征向量用于指示所述标题中各个词和所述一元组集合 的关系; 对所述网页文档中元信息的关键词元信息进行分词,得到第二分词结果,并基于 所述第二分词结果,得到所述关键词元信息的一元组集合; 使用第二特征函数,对所述关键词元信息中各个关键词和所述关键词元信息的一 元组集合的关系进行判定,得到关键词特征向量,所述关键词特征向量用于指示所述关键 词元信息中各个关键词和所述关键词元信息的一元组集合的关系; 对所述网页文档中元信息的描述元信息进行分词,得到第=分词结果,并基于所 述第二分词结果,得到所述描述元信息的一元组集合. 使用第=特征函数,对所述描述元信息中各个网页描述词和所述描述元信息的一 元组集合的关系进行判定,得到描述特征向量,所述描述特征向量用于指示所述描述元信 息中各个网页描述词和所述描述元信息的一元组集合的关系; 对所述网页文档的网页正文进行处理后,得到所述网页正文的一元组集合和所述 网页正文的二元组集合; 使用第四特征函数,对所述网页正文中各个关键词和所述网页正文的一元组集合 的关系进行判定,得到网页正文的第一特征向量,所述网页正文的第一特征向量用于指示 所述网页正文中各个关键词和所述网页正文的一元组集合的关系; 使用第五特征函数,对所述网页正文中各个关键词和所述网页正文的二元组集合 的关系进行判定,得到网页正文的第二特征向量,所述网页正文的第二特征向量用于指示 所述网页正文中各个关键词和所述网页正文的二元组集合的关系。 优选地,所述基于所述分类结果,确定是否将所述网页文档存储至网页文档集合 中,包括: 当所述分类结果指示所述网页文档与捜索主题相关时,判断所述网页文档的主题 相关概率是否大于主题相关概率阔值,其中所述捜索主题为所述主题爬虫爬取的主题; 当判断出所述网页文档的主题相关概率大于主题相关概率阔值时,将所述网页文 档存储至所述网页文档集合中; 当所述分类结果指示所述网页文档与所述捜索主题不相关时,判断所述网页文档 集合中主题相关文档数量与非主题相关文档数量之比是否小于主题相关占比阔值,其中所 述主题相关文档数量是指与所述捜索主题相关的网页文档的数量,所述非主题相关文档数 量是指与所述捜索主题不相关的网页文档的数量; 当判断出所述网页文档集合中主题相关文档数量与非主题相关文档数量之比小 于主题相关占比阔值时,将所述网页文档存储至所述网页文档集合中。 优选地,所述当基于所述分类结果将所述网页文档存储至网页文档集合中时,基 于网页文档集合中网页文档增量情况,对与所述主题爬虫相关的主题分类模型进行训练, 包括: 当所述网页文档存储至所述网页文档集合中时,对增量计数器进行加一处理,其 中所述增量计数器的初始值为0,且所述网页文档集合中每存储一个网页文档,所述增量计 数器自动加一; 判断所述增量计数器的取值是否大于增量阔值,如果是,对所述主题分类模型进 行重新训练,且将所述增量计数器的取值更新为初始值。 本专利技术还提供一种主题爬虫处理装置,所述装置包括: 获取单元,用于获取待爬取队列中统一资源定位符对应的网页文档; 提取单元,用于从所述网页文档中提取特征信息,其中所述特征信息至少包括网 络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息W及网页正文特 征信息; 分类单元,用于基于所述特征信息对所述网页文档进行主题相关性分类,得到分 类结果; 判断单元,用于基于所述分类结果,确定是否将所述网页文档存储至网页文档集 合中; 训练单元,用于当基于所述分类结果将所述网页文档存储至网页文档集合中时, 基于网页文档集合中网页文档增量情况,对与所述主题爬虫相关的主题分类模型进行训 练。 优选地,所述装置还包括:页面判断单元,用于判断所述统一资源定位符对应的页 面是否是导航页,如果是则触发所述获取单元对所述导航页进行解析,获取所述导航页中 的统一资源定位符,并将获取到的统一资源定位符写入所述待爬取队列中;如果否则触发 所述提取单元。 优选地,所述提取单元包括: 第一分词子单元,用于对所述网页文档的标题进行分词,得到第一分词结果,并基 于所述第一分词结果,得到所述标题的一元组集合; 标题特征向量获取子单元,用于使用第一特征函数,对所述标题中各个词和所述 标题的一元组集合的关系进行判定,得到标题特征向量,所述标题特征向量用于指示所述 标题中各个词和所述一元组集合的关系; 第二分词子单元,用于对所述网页文档中元信息的关键词元信息进行分词,得到 第二分词结果,并基于所述第二分词结果,得到所述关键词元信息的一元组集合; 关键词特征向量获取子单元,用于使用第二特征函数,对所述关键词元信息中各 个关键词和所述关键词元信息的一元组集合的关系进行判定,得到关键词特征向量,所述 关键词特征向量用于指示所述关键词元信息中各个关键词和所述关键词元信息的一元组 集合的关系; 第=分词子单元,用于对所述网页文档中元信息的描述元信息进行分词,得到第 =分词结果,并基于本文档来自技高网...
【技术保护点】
一种主题爬虫处理方法,其特征在于,所述方法包括:获取待爬取队列中统一资源定位符对应的网页文档;从所述网页文档中提取特征信息,其中所述特征信息至少包括网络标题特征信息、元信息中的关键词特征信息、元信息中的描述特征信息以及网页正文特征信息;基于所述特征信息对所述网页文档进行主题相关性分类,得到分类结果;基于所述分类结果,确定是否将所述网页文档存储至网页文档集合中;当基于所述分类结果将所述网页文档存储至网页文档集合中时,基于网页文档集合中网页文档增量情况,对与所述主题爬虫相关的主题分类模型进行训练。
【技术特征摘要】
【专利技术属性】
技术研发人员:张晨,邵小亮,谢隆飞,王全礼,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。