基于关键词导向的主题网络爬虫的数据搜集方法技术

技术编号：14455614 阅读：104 留言：0更新日期：2017-01-19 04:18

本发明专利技术涉及一种基于关键词导向的主题网络爬虫的数据搜集方法。该方法的步骤包括：1)在网络爬虫的配置文件中设立主题信息的配置选项，包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值；2)对待爬取网页的内容进行解析，得到对应于所述主题关键词列表中各关键词的关键词出现次数，并根据各关键词的权重及其出现次数计算主题相关度分值；3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较，控制网络爬虫的链接扩散走向并实现数据搜集。本发明专利技术通过设定与主题相关的关键词，动态调整爬取走向，既保证了爬取的广度，又维持了爬取扩散的方向不脱离指定主题，能够更有效地收集最大范围的主题内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机网络
，涉及一种信息搜集技术，特别涉及一种基于主题网络爬虫的数据搜集方法。
技术介绍
大数据时代已经到来，海量、高速和多变是大数据公认的基本特点。国际数据公司(IDC)的研究结果表明，2013年全球数据量4.4ZB，2020年的时候，全球的数据总量将达到40ZB。目前全球数据的增长速度在每年40％左右，若是以此计算，那么2014年全球数据总量在6.2ZB左右，2015年全球数据总量在8.6ZB左右，2016年将在12ZB左右。与此同时，当今互联网技术日新月异，互联网的规模也在不断扩大，网络信息总量呈指数增长。互联网是一个海量、巨大的信息库，包含着各种各样的数据和资源。用户想要在如此巨量、复杂多变的数据中及时找到自己所需的信息变得越来越困难。网络爬虫是一种按照一定规则，自动抓取网络信息的程序或脚本，通常用于不同领域的信息检索或资源获取需求。传统爬虫从一个或若干初始网页的URL开始，获得初始网页内的URL，并在抓取页面过程中，不断从当前页面上抽取新的URL放入抓取队列，并重复上述过程，直到满足一定的结束条件为止。网络爬虫一般分为分为广度优先策略和深度优先策略。广度优先策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层的搜索，目的是为覆盖尽可能多的网页。深度优先策略是指从起始网页开始，选择一个URL进入，分析该网页中的URL，选择一个再进入，如此下去，直到处理完一条路线之后再处理下一条路线。网络爬虫根据应用目的，通常为通用网路爬虫和主题网络爬虫两种。通用网络爬虫一般用于搜索引擎服务，目的是快速、全面地抓取互联网网页内容。它主要...

【技术保护点】
一种基于主题网络爬虫的数据搜集方法，其步骤包括：1)在网络爬虫的配置文件中设立主题信息的配置选项，包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值；2)对待爬取网页的内容进行解析，得到对应于所述主题关键词列表中各关键词的关键词出现次数，并根据各关键词的权重及其出现次数计算主题相关度分值；3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较，控制网络爬虫的链接扩散走向并实现数据搜集。

【技术特征摘要】
1.一种基于主题网络爬虫的数据搜集方法，其步骤包括：1)在网络爬虫的配置文件中设立主题信息的配置选项，包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值；2)对待爬取网页的内容进行解析，得到对应于所述主题关键词列表中各关键词的关键词出现次数，并根据各关键词的权重及其出现次数计算主题相关度分值；3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较，控制网络爬虫的链接扩散走向并实现数据搜集。2.如权利要求1所述的方法，其特征在于：步骤2)在爬虫程序的网页描述数据结构中设立主题选项，用于记录所述主题相关度分值。3.如权利要求1所述的方法，其特征在于：步骤2)对网页内容进行解析时，对网页内容进行分词处理，并扫描分词结果列表，找到关键词m1,m2,m3...mn对应的权重x1,x2,x3...xn以及关键词出现的次数y1,y2,y3...yn，然后采用如下公式计算主题相关度分值themeFa...

【专利技术属性】
技术研发人员：朴爱花，龚晓锐，和晓宇，霍玮，邹维，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人