一种网络大数据信息聚合爬虫系统及方法技术方案

技术编号:26065918 阅读:16 留言:0更新日期:2020-10-28 16:38
本发明专利技术属于计算机技术领域,具体涉及一种网络大数据信息聚合爬虫系统及方法。信息抓取单元,用于抓取目标信息;信息处理单元,用于进行爬取内容信息相似度检测,将所述爬取得到的网络信息进行筛选;聚合分类单元,用于对筛选过的信息按类别、热度、关键字进行分类排序。具有效率高、响应快和精确度高的优点。

【技术实现步骤摘要】
一种网络大数据信息聚合爬虫系统及方法
本专利技术属于计算机
,具体涉及一种网络大数据信息聚合爬虫系统及方法。
技术介绍
随着互联网的不断发展,大数据时代迎面而来,海量数据的价值也将得到更多体现。由于海量流媒体视频资源及丰富的网页内容等互联网信息的日益递增,让特定用户在有限的碎片时间段通过手持设备很难准确有效获取自身所需的网络数据。而现有的内容聚合技术大多以基于上层架构的方式进行仿真模拟证明其内容聚合系统的优越性,缺少对真实网络环境及目标用户群对应的特定信息进行实现应用。传统的内容聚合方法所选择的过滤条件过于广泛,并且无法进行大批量定制化获取信息,难以保证信息的及时性与主题的相关性。对获取信息端规则的快速无规律变化无法适应,造成信息来源渠道的短暂性,无法长时间进行信息获取。对互联网上多个来源不同的相同信息无法区分,造成信息的重复性及冗余性,降低了目标用户获取信息的高效性。因此对于如何提高内容聚合平台的信息获取持久化、信息的去冗余度、信息的聚合分类等值得研究。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供了一种网络大数据信息聚合爬虫系统及方法,具有效率高、响应快和精确度高的优点。为达到上述目的,本专利技术的技术方案是这样实现的:一种网络大数据信息聚合爬虫系统,所述系统包括:信息抓取单元,用于抓取目标信息;信息处理单元,用于进行爬取内容信息相似度检测,将所述爬取得到的网络信息进行筛选;聚合分类单元,用于对筛选过的信息按类别、热度、关键字进行分类排序。进一步的,所述信息抓取单元包括:配置单元,将不同的爬虫平台设置在不同的设备上;请求发送单元,向爬取的网络信息来源端发送请求;规则制定单元,根据用户所需求的目标信息制定爬取规则;抓取单元,抓取目标用户所感兴趣的信息。进一步的,所述信息处理单元包括:相似度检测单元,用于内容信息相似度检测;处理单元,用于根据相似度检测的结果,将所述爬取得到的网络信息进行处理。进一步的,所述聚合分类单元包括:分类单元,用于进行爬取信息聚合分类;排序单元,用于对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。一种网络大数据信息聚合爬虫方法,该方法包括以下过程:步骤1:抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;步骤2:爬取内容信息相似度检测,将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及其转换方法结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度;步骤三3:爬取信息聚合分类,在步骤二的基础上,系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。进一步的,在所述步骤1中,对于爬取平台的设置还包括以下步骤:在任务开始前对爬虫平台进行部署,并配置爬虫属性,通过网页分析算法过滤与用户检索无关的链接,保留有用的链接放到待抓取的队列中,在过滤过程中,后台服务器首先将网页内容转化成文本形式并通过基于文本的网页分析算法从队列中选择下一步要抓取的url,,重复以上步骤,遍历整个页面,直到满足程序的停止条件。进一步的,所述方法还包括:对爬虫任务的分配情况进行检测;若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。本专利技术的一种网络大数据信息聚合爬虫系统及方法,具有如下有益效果:具有效率高、响应快和精确度高的优点。附图说明图1为本专利技术的网络大数据信息聚合爬虫系统的系统结构示意图。具体实施方式下面结合附图及本专利技术的实施例对本专利技术的方法作进一步详细的说明。如图1所示,一种网络大数据信息聚合爬虫系统,所述系统包括:信息抓取单元,用于抓取目标信息;信息处理单元,用于进行爬取内容信息相似度检测,将所述爬取得到的网络信息进行筛选;聚合分类单元,用于对筛选过的信息按类别、热度、关键字进行分类排序。进一步的,所述信息抓取单元包括:配置单元,将不同的爬虫平台设置在不同的设备上;请求发送单元,向爬取的网络信息来源端发送请求;规则制定单元,根据用户所需求的目标信息制定爬取规则;抓取单元,抓取目标用户所感兴趣的信息。进一步的,所述信息处理单元包括:相似度检测单元,用于内容信息相似度检测;处理单元,用于根据相似度检测的结果,将所述爬取得到的网络信息进行处理。进一步的,所述聚合分类单元包括:分类单元,用于进行爬取信息聚合分类;排序单元,用于对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。一种网络大数据信息聚合爬虫方法,该方法包括以下过程:步骤1:抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;步骤2:爬取内容信息相似度检测,将所述爬取得到的网络信息进行处理,基于实时数据库中的数据传递及其转换方法结合局部敏感哈希(LSH)方法,进行相似度检测从而降低信息的冗余度;步骤三3:爬取信息聚合分类,在步骤二的基础上,系统对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。进一步的,在所述步骤1中,对于爬取平台的设置还包括以下步骤:在任务开始前对爬虫平台进行部署,并配置爬虫属性,通过网页分析算法过滤与用户检索无关的链接,保留有用的链接放到待抓取的队列中,在过滤过程中,后台服务器首先将网页内容转化成文本形式并通过基于文本的网页分析算法从队列中选择下一步要抓取的url,,重复以上步骤,遍历整个页面,直到满足程序的停止条件。进一步的,所述方法还包括:对爬虫任务的分配情况进行检测;若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。所属
的技术人员可以清楚本文档来自技高网
...

【技术保护点】
1.一种网络大数据信息聚合爬虫系统,其特征在于,所述系统包括:/n信息抓取单元,用于抓取目标信息;/n信息处理单元,用于进行爬取内容信息相似度检测,将所述爬取得到的网络信息进行筛选;/n聚合分类单元,用于对筛选过的信息按类别、热度、关键字进行分类排序。/n

【技术特征摘要】
1.一种网络大数据信息聚合爬虫系统,其特征在于,所述系统包括:
信息抓取单元,用于抓取目标信息;
信息处理单元,用于进行爬取内容信息相似度检测,将所述爬取得到的网络信息进行筛选;
聚合分类单元,用于对筛选过的信息按类别、热度、关键字进行分类排序。


2.如权利要求1所述的网络大数据信息聚合爬虫系统,其特征在于,所述信息抓取单元包括:
配置单元,将不同的爬虫平台设置在不同的设备上;
请求发送单元,向爬取的网络信息来源端发送请求;
规则制定单元,根据用户所需求的目标信息制定爬取规则;
抓取单元,抓取目标用户所感兴趣的信息。


3.如权利要求1所述的网络大数据信息聚合爬虫系统,其特征在于,所述信息处理单元包括:
相似度检测单元,用于内容信息相似度检测;
处理单元,用于根据相似度检测的结果,将所述爬取得到的网络信息进行处理。


4.如权利要求1所述的网络大数据信息聚合爬虫系统,其特征在于,所述聚合分类单元包括:
分类单元,用于进行爬取信息聚合分类;
排序单元,用于对筛选过的信息按类别、热度、关键字进行分类排序,并展示在用户设备上。


5.一种网络大数据信息聚合爬虫方法,其特征在于,该方法包括以下过程:
步骤1:抓取目标信息,首先将不同的爬虫平台设置在不同的设备上,向爬取的网络信息来源端发送请求,爬虫平台根据用户所需求的目标信息制定爬取规则,抓取目标用户所感兴趣的信息;

【专利技术属性】
技术研发人员:汪远
申请(专利权)人:上海朋数信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1