一种基于云原生的分布式网络爬虫系统、设备、介质和程序技术方案

技术编号：38153318 阅读：19 留言：0更新日期：2023-07-13 09:19

本发明专利技术公开了一种基于云原生的分布式网络爬虫系统、设备、介质和程序，系统以云原生kubernetes为部署平台，与文件系统连接，系统包括：待下载链接子系统，管理采集数据的站点链接，并将站点链接存储在文件系统中；排序子系统，将站点链接进行排序，生成优先级站点链接列表，并将优先级站点链接列表存储在文件系统中；网页去重子系统，去除优先级站点链接列表内的重复站点链接，并将去重后的优先级站点链接列表存储在文件系统中；网页内容获取子系统，按照去重后的优先级站点链接列表依次获取网站内容，并将网站内容存储在文件系统中。本申请能够提升资源的利用率，降低成本，能够按需进行计算资源的扩缩容，提升运维效率，具有高可用性。高可用性。高可用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云原生的分布式网络爬虫系统、设备、介质和程序

[0001]本专利技术涉及互联网
，尤其涉及一种基于云原生的分布式网络爬虫系统。

技术介绍

[0002]随着互联网、大数据技术的不断发展，网络爬虫技术已经成为其重要组成部分。特别是在当前大数据、人工智能大行其道的时代，及时和高质量的数据是进行后续处理的重要步骤和先决条件。
[0003]目前网络爬虫，多数是基于传统互联网技术实现，即采用IDC机房裸机或是云计算的ECS云主机进行分布式部署实现。
[0004]本申请专利技术人在实现本申请实施例技术方案的过程中，至少发现现有技术中存在如下技术问题：
[0005]传统的网络爬虫极度依赖人工提供部署和维护支持，表现为：
[0006]首先，传统IDC裸机或云主机部署方案由于硬件采买、及运行维护都会受到成本及支持服务周期影响，对于短时间突增和突减的算力需求并不能做到实时或准实时按需进行调整，所以成本较高、缺乏计算弹性。
[0007]其次，因为传统IDC裸机或云主机部署方案或多或少都需要一定规模的运维团队及配套运维系统支持，因此或多或少都会涉及一定规模的运维成本，所以运维复杂，不能低成本地集中管理、运营和运维。
[0008]再次，因为传统IDC裸机或云主机部署方案需要依靠主机粒度的冗余资源提供系统高可用支持，并且在系统出现故障时需要依靠人工进行排查错误和修复，所以可用性不高，对于出现故障的模块或子服务需要人工或半自动的方式进行恢复。
[0009]综上，现有的网络爬虫存在...

【技术保护点】

【技术特征摘要】
1.一种基于云原生的分布式网络爬虫系统，其特征在于，所述基于云原生的分布式网络爬虫系统以云原生kubernetes为部署平台，所述基于云原生的分布式网络爬虫系统与文件系统连接，所述系统包括：待下载链接子系统，管理采集数据的站点链接，并将所述站点链接存储在文件系统中；排序子系统，将所述站点链接进行排序，生成优先级站点链接列表，并将所述优先级站点链接列表存储在所述文件系统中；网页去重子系统，去除所述优先级站点链接列表内的重复站点链接，并将所述去重后的优先级站点链接列表存储在所述文件系统中；网页内容获取子系统，按照所述去重后的优先级站点链接列表依次获取网站内容，并将所述网站内容存储在所述文件系统中。2.如权利要求1所述的系统，其特征在于，所述排序子系统具体为链接和域名排序子系统。3.如权利要求1所述的系统，其特征在于，所述待下载链接子系统使用无状态的工作负载Deployment进行部署，从通用的存储服务中读取数据。4.如权利要求1所述的系统，其特征在于，所述排序子系统使用有状态的工作负载StatefulSet进行部署，使用NoSQL
‑
数据结构数据库。5.如权利要求1所述的系统，其特征在于，所述网页去重子系统使用无状态的工...

【专利技术属性】
技术研发人员：李瑞，
申请(专利权)人：上海等海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人