System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据爬取方法、系统、设备及存储介质技术方案_技高网

一种数据爬取方法、系统、设备及存储介质技术方案

技术编号:44879500 阅读:14 留言:0更新日期:2025-04-08 00:17
本发明专利技术提供一种数据爬取方法、系统、设备及存储介质,方法包括:获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本;根据所述爬虫脚本生成对应的爬取任务;执行所述爬取任务,获取所述目标网站中的目标数据;将所述目标数据进行保存,并生成目标数据索引;根据所述目标数据索引,利用数据导出接口将所述目标数据进行导出。本发明专利技术只要通过站点信息即可创建对应爬虫脚本,然后通过爬虫脚本执行爬取任务,可获取用户想要的数据,大大减少了数据获取的成本。

【技术实现步骤摘要】

本专利技术涉及数据采集,尤其涉及一种数据爬取方法、系统、设备及存储介质


技术介绍

1、知识图谱(knowledge graph)又称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着网络技术的发展,越来越多的企业热衷于构建知识图谱,用来进行智能搜索、文本分析和机器阅读等,然而,企业自身提供的数据往往无法满足知识图谱的构建要求,而现有的数据爬取方法,时间成本和经济成本往往较高,不适合企业的发展需求。


技术实现思路

1、有鉴于此,本专利技术的目的是为了克服现有技术中的不足,提供一种数据爬取方法、系统、设备及存储介质。

2、本专利技术提供如下技术方案:

3、第一方面,本申请提供了一种数据爬取方法,包括:

4、获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本;

5、根据所述爬虫脚本生成对应的爬取任务;

6、执行所述爬取任务,获取所述目标网站中的目标数据;

7、将所述目标数据进行保存,并生成目标数据索引;

8、根据所述目标数据索引,利用数据导出接口将所述目标数据进行导出。

9、一种实施方式中,所述获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本,包括:

10、获取所述目标网站的站点信息,所述站点信息包括站点id、站点名称、站点描述和站点地址;

11、根据所述站点信息确定所述爬虫脚本的脚本信息,所述脚本信息包括爬取开始时间、间隔类型和间隔时间;

12、根据所述脚本信息对所述爬虫脚本进行配置。

13、一种实施方式中,所述根据所述爬虫脚本生成对应的爬取任务,包括:

14、根据所述爬取开始时间、所述间隔类型和所述间隔时间,生成对应的时间表达式;

15、调用任务调度服务接口,利用所述站点地址和所述时间表达式,生成所述爬取任务。

16、一种实施方式中,所述将所述目标数据进行保存,包括:

17、构建敏感词页签,在所述敏感词页签输入目标敏感词,根据所述目标敏感词生成敏感词替换策略;

18、获取初始数据,利用所述敏感词替换策略,对所述初始数据中包含的所述目标敏感词进行替换得到所述目标数据并保存。

19、一种实施方式中,所述生成目标数据索引,包括:

20、调用搜索服务器elasticsearch的接口,利用所述目标数据生成所述目标数据索引。

21、一种实施方式中,所述获取所述目标网站中的目标数据,包括:

22、判断所述目标网站是否为外网服务器;

23、若为所述外网服务器,则选择对应的摆渡规则制定摆渡任务;

24、调用所述摆渡任务,将所述外网服务器的所述目标数据转换为数据压缩包;

25、将所述数据压缩包传输到内网服务器,对所述数据压缩包进行还原,得到所述目标数据。

26、一种实施方式中,所述获取所述目标网站中的目标数据之后,包括:

27、利用所述目标数据对所述目标网站的已爬取页面进行数据替换,得到已提取页面,并生成与所述已爬取页面对应的已提取标识。

28、第二方面,本申请提供了一种数据爬取系统,包括:

29、获取模块,用于获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本;

30、生成模块,用于根据所述爬虫脚本生成对应的爬取任务;

31、爬取模块,用于执行所述爬取任务,获取所述目标网站中的目标数据;

32、保存模块,用于将所述目标数据进行保存,并生成目标数据索引;

33、导出模块,用于根据所述目标数据索引,利用数据导出接口将所述目标数据进行导出。

34、第三方面,本申请提供了一种电子设备,包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施如第一方面所述的数据爬取方法。

35、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如第一方面所述的数据爬取方法。

36、本专利技术的实施例具有如下有益效果:

37、本专利技术提供的数据爬取方法,通过提前设置好的站点信息,用户只要通过站点信息即可创建对应爬虫脚本,然后通过爬虫脚本执行爬取任务,即可获取用户想要的数据,大大减少了数据获取的成本。

38、为使本专利技术的上述目的、特征和优点能更明显和易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种数据爬取方法,其特征在于,包括:

2.根据权利要求1所述的数据爬取方法,其特征在于,所述获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本,包括:

3.根据权利要求2所述的数据爬取方法,其特征在于,所述根据所述爬虫脚本生成对应的爬取任务,包括:

4.根据权利要求1所述的数据爬取方法,其特征在于,所述将所述目标数据进行保存,包括:

5.根据权利要求4所述的数据爬取方法,其特征在于,所述生成目标数据索引,包括:

6.根据权利要求1所述的数据爬取方法,其特征在于,所述获取所述目标网站中的目标数据,包括:

7.根据权利要求1所述的数据爬取方法,其特征在于,所述获取所述目标网站中的目标数据之后,包括:

8.一种数据爬取系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施如权利要求1至7中任一项所述的数据爬取方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如权利要求1至7中任一项所述的数据爬取方法。

...

【技术特征摘要】

1.一种数据爬取方法,其特征在于,包括:

2.根据权利要求1所述的数据爬取方法,其特征在于,所述获取目标网站的站点信息,根据所述站点信息配置对应的爬虫脚本,包括:

3.根据权利要求2所述的数据爬取方法,其特征在于,所述根据所述爬虫脚本生成对应的爬取任务,包括:

4.根据权利要求1所述的数据爬取方法,其特征在于,所述将所述目标数据进行保存,包括:

5.根据权利要求4所述的数据爬取方法,其特征在于,所述生成目标数据索引,包括:

6.根据权利要求1所述的数据爬取方法,其特征在于,所述获取...

【专利技术属性】
技术研发人员:段立罗兵张显峰黄亮梁镇彬孙乔刘树衎郭云玮
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1