一种网络大数据信息聚合爬虫系统及方法技术方案

技术编号：26065918 阅读：16 留言：0更新日期：2020-10-28 16:38

本发明专利技术属于计算机技术领域，具体涉及一种网络大数据信息聚合爬虫系统及方法。信息抓取单元，用于抓取目标信息；信息处理单元，用于进行爬取内容信息相似度检测，将所述爬取得到的网络信息进行筛选；聚合分类单元，用于对筛选过的信息按类别、热度、关键字进行分类排序。具有效率高、响应快和精确度高的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络大数据信息聚合爬虫系统及方法
本专利技术属于计算机
，具体涉及一种网络大数据信息聚合爬虫系统及方法。
技术介绍
随着互联网的不断发展，大数据时代迎面而来，海量数据的价值也将得到更多体现。由于海量流媒体视频资源及丰富的网页内容等互联网信息的日益递增，让特定用户在有限的碎片时间段通过手持设备很难准确有效获取自身所需的网络数据。而现有的内容聚合技术大多以基于上层架构的方式进行仿真模拟证明其内容聚合系统的优越性，缺少对真实网络环境及目标用户群对应的特定信息进行实现应用。传统的内容聚合方法所选择的过滤条件过于广泛，并且无法进行大批量定制化获取信息，难以保证信息的及时性与主题的相关性。对获取信息端规则的快速无规律变化无法适应，造成信息来源渠道的短暂性，无法长时间进行信息获取。对互联网上多个来源不同的相同信息无法区分，造成信息的重复性及冗余性，降低了目标用户获取信息的高效性。因此对于如何提高内容聚合平台的信息获取持久化、信息的去冗余度、信息的聚合分类等值得研究。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供了一种网络大数据信息聚合爬虫系统及方法，具有效率高、响应快和精确度高的优点。为达到上述目的，本专利技术的技术方案是这样实现的：一种网络大数据信息聚合爬虫系统，所述系统包括：信息抓取单元，用于抓取目标信息；信息处理单元，用于进行爬取内容信息相似度检测，将所述爬取得到的网络信息进行筛选；聚合分类单元，用于对筛选过的信息按类别、热度、关键字进行分类排序。...

【技术保护点】
1.一种网络大数据信息聚合爬虫系统，其特征在于，所述系统包括：/n信息抓取单元，用于抓取目标信息；/n信息处理单元，用于进行爬取内容信息相似度检测，将所述爬取得到的网络信息进行筛选；/n聚合分类单元，用于对筛选过的信息按类别、热度、关键字进行分类排序。/n

【技术特征摘要】
1.一种网络大数据信息聚合爬虫系统，其特征在于，所述系统包括：
信息抓取单元，用于抓取目标信息；
信息处理单元，用于进行爬取内容信息相似度检测，将所述爬取得到的网络信息进行筛选；
聚合分类单元，用于对筛选过的信息按类别、热度、关键字进行分类排序。

2.如权利要求1所述的网络大数据信息聚合爬虫系统，其特征在于，所述信息抓取单元包括：
配置单元，将不同的爬虫平台设置在不同的设备上；
请求发送单元，向爬取的网络信息来源端发送请求；
规则制定单元，根据用户所需求的目标信息制定爬取规则；
抓取单元，抓取目标用户所感兴趣的信息。

3.如权利要求1所述的网络大数据信息聚合爬虫系统，其特征在于，所述信息处理单元包括：
相似度检测单元，用于内容信息相似度检测；
处理单元，用于根据相似度检测的结果，将所述爬取得到的网络信息进行处理。

4.如权利要求1所述的网络大数据信息聚合爬虫系统，其特征在于，所述聚合分类单元包括：
分类单元，用于进行爬取信息聚合分类；
排序单元，用于对筛选过的信息按类别、热度、关键字进行分类排序，并展示在用户设备上。

5.一种网络大数据信息聚合爬虫方法，其特征在于，该方法包括以下过程：
步骤1：抓取目标信息，首先将不同的爬虫平台设置在不同的设备上，向爬取的网络信息来源端发送请求，爬虫平台根据用户所需求的目标信息制定爬取规则，抓取目标用户所感兴趣的信息；

【专利技术属性】
技术研发人员：汪远，
申请(专利权)人：上海朋数信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人