基于云桌面的数据收集方法、装置和电子设备制造方法及图纸

技术编号:37639376 阅读:11 留言:0更新日期:2023-05-25 10:06
本申请提供了一种基于云桌面的数据收集方法、装置和电子设备。该方法包括:接收查询请求;根据查询请求采用网络爬虫从爬取对象中爬取初始数据,爬取对象用于存储初始数据;根据查询请求从初始数据中选取出满足查询请求的数据,得到目标数据;将目标数据存储在云桌面的目标数据库中。该方案中,可以基于查询请求,通过网络爬虫先从爬取对象中爬取初始数据,再基于查询请求从初始数据中再次选取出目标数据,这样可以从海量的初始数据中选择需要的目标数据,进而解决了由于原始获取的数据较为复杂且数据较多,无法快速的从获取到的海量数据中选择需要的数据的问题。中选择需要的数据的问题。中选择需要的数据的问题。

【技术实现步骤摘要】
基于云桌面的数据收集方法、装置和电子设备


[0001]本申请涉及云桌面数据采集
,具体而言,涉及一种基于云桌面的数据收集方法、装置和电子设备。

技术介绍

[0002]在应用云桌面的日常工作及项目开发中常有对数据整理收集的需求,一些常用的平台如Confluence及Git拥有的数据较为繁杂,传统方式(平台自身提供的数据下载导出功能)进行收集耗时较长并常有遗漏,且不能对特定字段的数据进行针对性收集,造成在日常数据整理工作中通过现有方式进行收集时效率较为低下。因此,在一些方案中,由于原始获取的数据较为复杂且数据较多,无法快速的从获取到的海量数据中选择需要的数据。

技术实现思路

[0003]本申请的主要目的在于提供一种基于云桌面的数据收集方法、装置和电子设备,以至少解决现有技术中由于原始获取的数据较为复杂且数据较多,无法快速的从获取到的海量数据中选择需要的数据的问题。
[0004]为了实现上述目的,根据本申请的一个方面,提供了基于云桌面的数据收集方法,包括:接收查询请求,所述查询请求表征请求从爬取对象中查询数据,所述爬取对象包括以下至少之一:云桌面内的网页、所述云桌面内的平台;根据所述查询请求采用网络爬虫从所述爬取对象中爬取初始数据,所述爬取对象用于存储所述初始数据,所述初始数据至少包括请求的数据;根据所述查询请求从所述初始数据中选取出满足所述查询请求的数据,得到目标数据,所述目标数据是所述初始数据中的至少部分数据;将所述目标数据存储在所述云桌面的目标数据库中。
[0005]可选地,根据所述查询请求从所述初始数据中选取出满足所述查询请求的数据,得到目标数据,包括:根据所述查询请求对所述初始数据进行第一次选取,提取所述初始数据中的父类字段的数据,得到初始目标数据;根据所述查询请求对所述初始目标数据进行第二次选取,提取所述初始目标数据中的子类字段的数据,得到所述目标数据,其中,所述父类字段的数据包括所述子类字段的数据,所述父类字段包括至少一个所述子类字段。
[0006]可选地,根据所述查询请求对所述初始数据进行第一次选取,提取所述初始数据中的父类字段的数据,得到初始目标数据,包括:根据所述查询请求提取所述初始数据中的第N层字段,所述初始数据中包括多层字段,第N层字段是第N+1层字段的父类字段,N≥1;提取第N层字段下的所有的数据,得到所述初始目标数据。
[0007]可选地,根据所述查询请求对所述初始目标数据进行第二次选取,提取所述初始目标数据中的子类字段的数据,得到所述目标数据,包括:获取所述初始目标数据中的关联字段信息,所述关联字段信息用于存储父类字段和子类字段之间的关系,在所述初始目标数据中有所述关联字段信息的情况下,获取一个子类字段的数据需预先获取父类字段下所有的数据再获取子类字段的数据;从所述初始目标数据中将所述关联字段信息删除,在所
述初始目标数据中没有所述关联字段信息的情况下,获取一个子类字段的数据无需预先获取父类字段下所有的数据再获取子类字段的数据;根据所述查询请求确定目标子类字段,提取所述初始数据中的所述目标子类字段,并提取所述目标子类字段下的所有的数据,得到所述目标数据,所述目标子类字段是指请求查询的数据的对应的字段。
[0008]可选地,获取到的所述目标数据有多个,将所述目标数据存储在所述云桌面的目标数据库中,包括:在所述网络爬虫依次获取数据的情况下,依次将获取到的多个所述目标数据存储在所述云桌面的暂存数据库中,所述暂存数据库用于临时存储数据;在所述网络爬虫停止获取数据的情况下,将所述暂存数据库中的存储的所述目标数据导出或者迁移至所述云桌面的所述目标数据库中进行存储。
[0009]可选地,所述方法还包括:获取操作数据,所述操作数据是指目标对象在所述云桌面操作过程中的操作记录,所述操作数据中包括多个操作字段,所述操作字段包括以下至少之一:所述云桌面内git平台提交修改记录的用户名、提交时间、备注信息;获取各所述操作字段对应的重要程度,所述重要程度是指所述操作字段在所述操作数据中的重要性;根据各所述操作字段对应的所述重要程度对所述操作字段进行组合,得到目标操作字段,将所述目标操作字段和所述操作数据存储在所述目标数据库中,所述目标操作字段表征所述操作数据中的唯一字段。
[0010]可选地,根据各所述操作字段对应的所述重要程度对所述操作字段进行组合,得到目标操作字段,包括:将多个所述操作字段按照所述重要程度进行排序,得到排序后的多个操作字段;按照从前到后的顺序,从排序后的多个操作字段中提取至少两个所述操作字段进行组合,得到所述目标操作字段。
[0011]可选地,所述方法还包括以下至少之一:在接收到所述查询请求之后,确定请求获取数据的所述云桌面的所述平台的权限,在请求获取数据的所述云桌面的所述平台的所述权限表征不允许所述云桌面的所述平台获取数据的情况下,确定所述云桌面的所述平台的所述权限异常;在根据所述查询请求采用所述网络爬虫从所述爬取对象中爬取到所述初始数据之后,确定获取到的所述初始数据是否为空,在所述初始数据为空的情况下,确定所述网络爬虫爬取数据异常;在将所述目标数据存储在所述目标数据库之后,确定所述目标数据库是否为空,在所述目标数据库为空的情况下,确定所述目标数据库存储数据异常。
[0012]根据本申请的另一方面,提供了一种基于云桌面的数据收集装置,包括:接收单元,用于接收查询请求,所述查询请求表征请求从爬取对象中查询数据,所述爬取对象包括以下至少之一:云桌面内的网页、所述云桌面内的平台;爬取单元,用于根据所述查询请求采用网络爬虫从所述爬取对象中爬取初始数据,所述爬取对象用于存储所述初始数据,所述初始数据至少包括请求的数据;选取单元,用于根据所述查询请求从所述初始数据中选取出满足所述查询请求的数据,得到目标数据,所述目标数据是所述初始数据中的至少部分数据;存储单元,用于将所述目标数据存储在所述云桌面的目标数据库中。
[0013]根据本申请的再一方面,提供了一种电子设备,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。
[0014]应用本申请的技术方案,首先接收查询请求,之后根据查询请求采用网络爬虫从爬取对象中爬取初始数据,之后根据查询请求从初始数据中选取出满足查询请求的数据,
得到目标数据,最后将目标数据存储在云桌面的目标数据库中。该方案中,可以基于查询请求,通过网络爬虫先从爬取对象中爬取初始数据,再基于查询请求从初始数据中再次选取出目标数据,这样可以从海量的初始数据中选择需要的目标数据,进而解决了由于原始获取的数据较为复杂且数据较多,无法快速的从获取到的海量数据中选择需要的数据的问题。
附图说明
[0015]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云桌面的数据收集方法,其特征在于,包括:接收查询请求,所述查询请求表征请求从爬取对象中查询数据,所述爬取对象包括以下至少之一:云桌面内的网页、所述云桌面内的平台;根据所述查询请求采用网络爬虫从所述爬取对象中爬取初始数据,所述爬取对象用于存储所述初始数据,所述初始数据至少包括请求的数据;根据所述查询请求从所述初始数据中选取出满足所述查询请求的数据,得到目标数据,所述目标数据是所述初始数据中的至少部分数据;将所述目标数据存储在所述云桌面的目标数据库中。2.根据权利要求1所述的方法,其特征在于,根据所述查询请求从所述初始数据中选取出满足所述查询请求的数据,得到目标数据,包括:根据所述查询请求对所述初始数据进行第一次选取,提取所述初始数据中的父类字段的数据,得到初始目标数据;根据所述查询请求对所述初始目标数据进行第二次选取,提取所述初始目标数据中的子类字段的数据,得到所述目标数据,其中,所述父类字段的数据包括所述子类字段的数据,所述父类字段包括至少一个所述子类字段。3.根据权利要求2所述的方法,其特征在于,根据所述查询请求对所述初始数据进行第一次选取,提取所述初始数据中的父类字段的数据,得到初始目标数据,包括:根据所述查询请求提取所述初始数据中的第N层字段,所述初始数据中包括多层字段,第N层字段是第N+1层字段的父类字段,N≥1;提取第N层字段下的所有的数据,得到所述初始目标数据。4.根据权利要求2所述的方法,其特征在于,根据所述查询请求对所述初始目标数据进行第二次选取,提取所述初始目标数据中的子类字段的数据,得到所述目标数据,包括:获取所述初始目标数据中的关联字段信息,所述关联字段信息用于存储父类字段和子类字段之间的关系,在所述初始目标数据中有所述关联字段信息的情况下,获取一个子类字段的数据需预先获取父类字段下所有的数据再获取子类字段的数据;从所述初始目标数据中将所述关联字段信息删除,在所述初始目标数据中没有所述关联字段信息的情况下,获取一个子类字段的数据无需预先获取父类字段下所有的数据再获取子类字段的数据;根据所述查询请求确定目标子类字段,提取所述初始数据中的所述目标子类字段,并提取所述目标子类字段下的所有的数据,得到所述目标数据,所述目标子类字段是指请求查询的数据的对应的字段。5.根据权利要求1所述的方法,其特征在于,获取到的所述目标数据有多个,将所述目标数据存储在所述云桌面的目标数据库中,包括:在所述网络爬虫依次获取数据的情况下,依次将获取到的多个所述目标数据存储在所述云桌面的暂存数据库中,所述暂存数据库用于临时存储数据;在所述网络爬虫停止获取数据的情况下,将所述暂存数据库中的存储的所述...

【专利技术属性】
技术研发人员:黎育龙张志鹏吴鹏李冠宇郝盼盼
申请(专利权)人:中国邮政储蓄银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1