【技术实现步骤摘要】
一种分布式垂直爬虫方法及终端设备
本专利技术涉及信息检索
,具体为一种分布式垂直爬虫方法及终端设备。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,现有的通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询等。目前网络爬虫需要爬取的数据量巨大时,现有的分布式爬虫架构的爬取效率较低,因此,有必要进行改进。
技术实现思路
本专利技术的目的在于提供一种分布式垂直爬虫方法及终端设备,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种分布式垂直爬虫方法,包括以下步骤:A、首先数据抓取单元中网络爬虫爬取网页资源数据;B、之后对抓取的网页资源数据进行预处理;C、将预处理后的网页资源数据进行分类,得到分类后的数据;D、将分类后的数据传输至数据分析单元进行数据分析;r>E、分析后的数据传输至存储单元中进行加密存储;F、最后将加密存储后的数据传输至后台监控终端。优选的,所述步骤A中网络爬虫爬取方法如下:a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。优选的,所述步骤B中数据预处理方法如下:a、对抓取的数据进行识别,得到噪声数据;b、计算当前噪声数据的预设时间段前的平均值;c、使用平均值取代噪声数据中的当前噪声值。优选的,所述步骤C中数据分类方法如下:a、将网页资源数据压缩成数据样本,并对压缩后的数据样本进行等分,分成多个子数据集;b、基于Adaboost算法使用多个弱分类器对多个子数据集进行训练;c、对训练后的子数据集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对子数据集中特征属性再次进行筛选,将筛选后子数据集样本重新进行RIPPER分类,得到最终的训练子数据集;d、根据数据属性,对训练子数据集进行分类,输出分类结果。优选的,一种分布式垂直爬虫终端设备,包括网页抓取单元、数据预处理单元、数据分类单元、数据传输单元、数据分析单元和存储单元,所述网页抓取单元连接数据预处理单元,所述数据预处理单元连接数据分类单元,所述数据分类单元通过数据传输单元连接数据分析单元,所述数据分析单元连接存储单元,所述存储单元通过安全传输网络连接监控终端,其中,所述网页抓取单元抓取网页资源数据信息;所述数据预处理单元用于对抓取的网页资源数据进行清洗操作;所述数据分类单元用于对清洗后的数据进行分类;所述数据分析单元用于分析分类后的数据,所述存储单元用于加密存储分析后的数据。与现有技术相比,本专利技术的有益效果是:(1)本专利技术能够实现对网页资源数据的快速抓取、预处理、分类以及加密处理,提高了数据处理效率,而且安全性高,不会出现数据泄露现象。(2)本专利技术采用的网络爬虫爬取方法在对网页更新频率的处理上,规避了复杂的算法,可以极大提高爬虫的工作效率,提高系统整体响应速度,在爬虫节点数较多时,可以避免单个去重模块的压力和单点故障。(3)本专利技术采用的数据预处理方法能够快速清除噪声数据,提高数据处理效率。(4)本专利技术采用的数据分类方法可以充分发挥Ripper分类、Adaboost算法的优势,有效提高数据分类的精度及性能。附图说明图1为本专利技术流程图;图2为本专利技术网络爬虫爬取方法流程图;图3为本专利技术终端设备原理框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,本专利技术提供一种技术方案:一种分布式垂直爬虫方法,包括以下步骤:A、首先数据抓取单元中网络爬虫爬取网页资源数据;B、之后对抓取的网页资源数据进行预处理;C、将预处理后的网页资源数据进行分类,得到分类后的数据;D、将分类后的数据传输至数据分析单元进行数据分析;E、分析后的数据传输至存储单元中进行加密存储;F、最后将加密存储后的数据传输至后台监控终端。本专利技术中,步骤A中网络爬虫爬取方法如下:a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。本专利技术采用的网络爬虫爬取方法在对网页更新频率的处理上,规避了复杂的算法,可以极大提高爬虫的工作效率,提高系统整体响应速度,在爬虫节点数较多时,可以避免单个去重模块的压力和单点故障。本专利技术中,步骤B中数据预处理方法如下:a、对抓取的数据进行识别,得到噪声数据;b、计算当前噪声数据的预设时间段前的平均值;c、使用平均值取代噪声数据中的当前噪声值。本专利技术采用的数据预处理方法能够快速清除噪声数据,提高数据处理效率。本专利技术中,步骤C中数据分类方法如下:a、将网页资源数据压缩成数据样本,并对压缩后的数据样本进行等分,分成多个子数据集;b、基于Adaboost算法使用多个弱分类器对多个子数据集进行训练;c、对训练后的子数据集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对子数据集中特征属性再次进行筛选,将筛选后子数据集样本重新进行RIPPER分类,得到最终的训练子数据集;d、根据数据属性,对训练子数据集本文档来自技高网...
【技术保护点】
1.一种分布式垂直爬虫方法,其特征在于:包括以下步骤:/nA、首先数据抓取单元中网络爬虫爬取网页资源数据;/nB、之后对抓取的网页资源数据进行预处理;/nC、将预处理后的网页资源数据进行分类,得到分类后的数据;/nD、将分类后的数据传输至数据分析单元进行数据分析;/nE、分析后的数据传输至存储单元中进行加密存储;/nF、最后将加密存储后的数据传输至后台监控终端。/n
【技术特征摘要】
1.一种分布式垂直爬虫方法,其特征在于:包括以下步骤:
A、首先数据抓取单元中网络爬虫爬取网页资源数据;
B、之后对抓取的网页资源数据进行预处理;
C、将预处理后的网页资源数据进行分类,得到分类后的数据;
D、将分类后的数据传输至数据分析单元进行数据分析;
E、分析后的数据传输至存储单元中进行加密存储;
F、最后将加密存储后的数据传输至后台监控终端。
2.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤A中网络爬虫爬取方法如下:
a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;
b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;
c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;
d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;
e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。
3.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤B中数据预处理方法如下:
a、对抓取的数据进行识别,得到噪声数据;
b、计算当前噪声数据的预设时间段前的平均值;
c、使用平均值取代噪声数据中的当前噪声值...
【专利技术属性】
技术研发人员:侯林勇,方程,张亮,杨坤,袁率,王俊,李亚萍,刘婉莹,
申请(专利权)人:贵州小叮当信息技术有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。