System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据采集方法、装置、计算机设备及计算机可读存储介质制造方法及图纸_技高网

数据采集方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:43405532 阅读:1 留言:0更新日期:2024-11-22 17:44
本申请公开了一种数据采集方法、装置、计算机设备及计算机可读存储介质,该方法包括:向客户端设备发送数据采集请求,并接收客户端设备基于数据采集请求返回的目标应用的数据包;对数据包进行解析,得到目标应用的原始数据;对原始数据进行文本分类处理,得到目标应用的结构化数据。采用本申请的方法无需针对每个应用程序定制采集逻辑,可以大幅降低开发工作量,适用于规模化数据采集。

【技术实现步骤摘要】

本申请涉及数据采集,具体涉及一种数据采集方法、装置、计算机设备及计算机可读存储介质


技术介绍

1、随着智能终端的普及,应用程序(application,app)已经成为人们获取信息的主要媒介,因此,app数据采集变得尤为重要。现有app数据采集方法主要有以下两种:(1)通过逆向工程破解app,模拟app发出请求获取数据;(2)分析app的界面布局,采集自动化工具定位界面元素,获取界面元素对应的文本内容。然而,上述两种app数据采集方法针对每个app都需要定制数据采集逻辑,开发工作量大,不适用于规模化采集。


技术实现思路

1、本申请实施例提供一种数据采集方法、装置、计算机设备及计算机可读存储介质,无需针对每个应用程序定制采集逻辑,可以大幅降低开发工作量,适用于规模化数据采集。

2、本专利技术解决问题所采用的技术方案如下:

3、一方面,本申请提供一种数据采集方法,应用于数据采集系统的服务端设备,包括:

4、向客户端设备发送数据采集请求,并接收客户端设备基于数据采集请求返回的目标应用的数据包;

5、对数据包进行解析,得到目标应用的原始数据;

6、对原始数据进行文本分类处理,得到目标应用的结构化数据。

7、在本申请一些实施方案中,对原始数据进行文本分类处理,得到目标应用的结构化数据,包括:

8、获取目标应用的应用类型;

9、基于应用类型,确定目标应用对应的文本分类模型;

10、利用文本分类模型对原始数据中的多个分块文本进行文本分类处理,得到每个分块文本对应的文本类别;

11、基于多个分块文本及每个分块文本对应的文本类别,确定目标应用的结构化数据。

12、在本申请一些实施方案中,对数据包进行解析,得到目标应用的原始数据,包括:

13、获取数据包的协议类型;

14、根据协议类型对数据包进行解析,得到目标应用的原始数据。

15、在本申请一些实施方案中,数据采集系统包括多个客户端设备,向客户端设备发送数据采集请求,包括:

16、获取多个客户端设备的负载信息;

17、基于负载信息从多个客户端设备中确定目标客户端设备;

18、向目标客户端设备发送数据采集请求。

19、第二方面,本申请提供一种数据采集方法,应用于数据采集系统的客户端设备,包括:

20、接收服务端设备发送的数据采集请求;数据采集请求包括目标应用的应用信息及目标应用的最大层级界面信息;

21、基于应用信息和最大层级界面信息对目标应用的界面进行遍历,并通过数据抓取程序抓取目标应用的数据包;

22、将目标应用的数据包发送至服务端设备,以使得服务端设备对数据包进行解析及文本分类处理,得到目标应用的结构化数据。

23、在本申请一些实施方案中,基于应用信息和最大层级界面信息对目标应用的界面进行遍历,包括:

24、基于应用信息启动目标应用;

25、通过自动化操作工具模拟用户操作对目标应用的各个层级界面进行遍历;

26、基于最大层级界面信息确定当前遍历的层级界面是否为目标应用的最大层级界面;

27、若当前遍历的层级界面为最大层级界面或当前遍历的层级界面无下级界面,返回当前遍历的层级界面的上一层级界面,并继续执行通过自动化操作工具模拟用户操作对目标应用的各个层级界面进行遍历的步骤,直至各个层级界面均已遍历完成或各个层级界面的遍历时间达到预设时间。

28、第三方面,本专利技术实施例还提供一种数据采集装置,应用于数据采集系统的服务端设备,包括:

29、数据采集模块,用于向客户端设备发送数据采集请求,并接收客户端设备基于数据采集请求返回的目标应用的数据包;

30、数据解析模块,用于对数据包进行解析,得到目标应用的原始数据;

31、文本分类模块,用于对原始数据进行文本分类处理,得到目标应用的结构化数据。

32、第四方面,本专利技术实施例还提供一种数据采集装置,应用于数据采集系统的客户端设备,包括:

33、请求接收模块,用于接收服务端设备发送的数据采集请求;数据采集请求包括目标应用的应用信息及目标应用的最大层级界面信息;

34、界面遍历模块,用于基于应用信息和最大层级界面信息对目标应用的界面进行遍历,并通过数据抓取程序抓取目标应用的数据包;

35、数据发送模块,用于将目标应用的数据包发送至服务端设备,以使得服务端设备对数据包进行解析及文本分类处理,得到目标应用的结构化数据。

36、第五方面,本申请还提供一种计算机设备,计算机设备包括:

37、一个或多个处理器;

38、存储器;以及

39、一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面或第二方面中任一项的数据采集方法。

40、第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面或第二方面中任一项的数据采集方法中的步骤。

41、本专利技术的有益效果:通过服务端设备向客户端设备发送数据采集请求,并接收客户端设备基于数据采集请求返回的目标应用的数据包,对数据包进行解析得到目标应用的原始数据,对原始数据进行文本分类处理得到目标应用的结构化数据,数据采集方法通用于所有应用程序,无需针对每个应用程序定制采集逻辑,可以大幅降低开发工作量,适用于规模化数据采集。

本文档来自技高网...

【技术保护点】

1.一种数据采集方法,其特征在于,应用于数据采集系统的服务端设备,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行文本分类处理,得到所述目标应用的结构化数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述数据包进行解析,得到所述目标应用的原始数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述数据采集系统包括多个客户端设备,所述向客户端设备发送数据采集请求,包括:

5.一种数据采集方法,其特征在于,应用于数据采集系统的客户端设备,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述应用信息和所述最大层级界面信息对所述目标应用的界面进行遍历,包括:

7.一种数据采集装置,其特征在于,应用于数据采集系统的服务端设备,包括:

8.一种数据采集装置,其特征在于,应用于数据采集系统的客户端设备,包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至6任一项所述的数据采集方法中的步骤。

...

【技术特征摘要】

1.一种数据采集方法,其特征在于,应用于数据采集系统的服务端设备,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行文本分类处理,得到所述目标应用的结构化数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述数据包进行解析,得到所述目标应用的原始数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述数据采集系统包括多个客户端设备,所述向客户端设备发送数据采集请求,包括:

5.一种数据采集方法,其特征在于,应用于数据采集系统的客户端设备,包括:<...

【专利技术属性】
技术研发人员:陈生
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1