System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自定义网页采集方法、系统、设备以及存储介质技术方案_技高网

自定义网页采集方法、系统、设备以及存储介质技术方案

技术编号:43135754 阅读:2 留言:0更新日期:2024-10-29 17:41
本发明专利技术公开一种自定义网页采集方法、系统、设备以及存储介质,其中,方法包括:创建一个显示窗口,并基于获取到的网址信息在显示窗口实时同步网页状态;根据获取到的采集元素与规则信息,生成一套采集规则,并基于采集规则对显示窗口的网页进行自动采集;记录自动采集过程中的操作数据,并根据获取到的指令对操作数据进行修改调整;将采集后的数据进行列表展示,并根据获取到的指令对采集后的数据进行数据处理。本发明专利技术技术方案旨在能够灵活地自定义采集规则配置,让采集操作可以更加丰富,提供了多功能的采集体验,达到真正意义上的无需编写代码就能采集任意网站。

【技术实现步骤摘要】

本专利技术涉及网页采集,特别涉及一种自定义网页采集方法、系统、设备以及存储介质


技术介绍

1、在数据膨胀的现代,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。现有的网页数据采集方法通常是使用有限的采集模板来对数据进行采集,不能够随心所欲地自定义采集规则配置,采集过程不够灵活,当需要增加一些数据处理的功能时,往往需要额外编写代码,比较麻烦。


技术实现思路

1、本专利技术的主要目的是提供一种自定义网页采集方法、系统、设备以及存储介质,旨在能够灵活地自定义采集规则配置,让采集操作可以更加丰富,提供了多功能的采集体验,达到真正意义上的无需编写代码就能采集任意网站。

2、为实现上述目的,本专利技术提出的一种自定义网页采集方法,包括:

3、创建一个显示窗口,并基于获取到的网址信息在所述显示窗口实时同步网页状态;

4、根据获取到的采集元素与规则信息,生成一套采集规则,并基于所述采集规则对所述显示窗口的网页进行自动采集;

5、记录所述自动采集过程中的操作数据,并根据获取到的指令对所述操作数据进行修改调整;

6、将采集后的数据进行列表展示,并根据获取到的指令对所述采集后的数据进行数据处理。

7、在本专利技术的一实施例中,所述根据获取到的采集元素与规则信息,生成一套采集规则的步骤之后,还包括:

8、对显示窗口的网页进行扫描识别,并将其与所述采集元素匹配的内容进行标注。

9、在本专利技术的一实施例中,所述对显示窗口的网页进行扫描识别,并将其与所述采集元素匹配的内容进行标注的步骤之后,还包括:

10、基于获取到的采集元素进行判断,得出多种下一步可进行的采集行为,并将所述多种下一步可进行的采集行为展示在所述显示窗口。

11、在本专利技术的一实施例中,所述将采集后的数据进行列表展示,并根据获取到的指令对所述采集后的数据进行数据处理的步骤之后,还包括:

12、基于获取到的指令,提供本地采集和云采集两种采集方式,其中,所述本地采集的数据保存于本地设备,所述云采集的数据保存于云服务器。

13、本专利技术还提供一种自定义网页采集系统,包括:

14、网页显示单元:用于创建一个显示窗口,并基于获取到的网址信息在所述显示窗口实时同步网页状态;

15、自定义采集单元:用于根据获取到的采集元素与规则信息,生成一套采集规则,并基于所述采集规则对所述显示窗口的网页进行自动采集;

16、操作记录单元:用于记录所述自动采集过程中的操作数据,并根据获取到的指令对所述操作数据进行修改调整;

17、数据展示单元:用于将采集后的数据进行列表展示,并根据获取到的指令对所述采集后的数据进行数据处理。

18、本专利技术还提供一种电子设备,包括:

19、存储器,用于保存计算机程序;

20、处理器,用于执行所述计算机程序,以实现以上任一项所述的自定义网页采集方法。

21、本专利技术还提供一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序被处理器运行时执行以上任一项所述的自定义网页采集方法。

22、本专利技术技术方案能够根据输入的采集元素和规则信息,生成一套采集规则,此过程中可以灵活地自定义采集规则配置,并基于此采集规则对选中的网页进行自动采集,用户可以选择是否多次条件循环、混动网页、点击元素、提取数据、判断条件、打开网页、输入文本、识别验证码、识别下拉选项、移动鼠标到元素上以及提取列表数据等等一系列操作,让采集操作更加丰富,提供了多功能的采集体验。

本文档来自技高网...

【技术保护点】

1.一种自定义网页采集方法,其特征在于,包括

2.根据权利要求1所述的自定义网页采集方法,其特征在于,所述根据获取到的采集元素与规则信息,生成一套采集规则的步骤之后,还包括:

3.根据权利要求2所述的自定义网页采集方法,其特征在于,所述对显示窗口的网页进行扫描识别,并将其与所述采集元素匹配的内容进行标注的步骤之后,还包括:

4.根据权利要求1所述的自定义网页采集方法,其特征在于,所述将采集后的数据进行列表展示,并根据获取到的指令对所述采集后的数据进行数据处理的步骤之后,还包括:

5.一种自定义网页采集系统,其特征在于,包括:

6.一种电子设备,其特征在于,包括:

7.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一项所述的自定义网页采集方法。

【技术特征摘要】

1.一种自定义网页采集方法,其特征在于,包括

2.根据权利要求1所述的自定义网页采集方法,其特征在于,所述根据获取到的采集元素与规则信息,生成一套采集规则的步骤之后,还包括:

3.根据权利要求2所述的自定义网页采集方法,其特征在于,所述对显示窗口的网页进行扫描识别,并将其与所述采集元素匹配的内容进行标注的步骤之后,还包括:

4.根据权利要求1所述的自定义...

【专利技术属性】
技术研发人员:吴艳刘百灵何维华
申请(专利权)人:深圳数阔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1