一种数据收集方法、装置和电子设备制造方法及图纸

技术编号:27454406 阅读:16 留言:0更新日期:2021-02-25 04:49
本申请实施例提供一种数据收集方法、装置和电子设备。方法包括:基于超文本传送协议服务获取上报数据;将所述上报数据保存到分布式队列;从所述分布式队列中读取所述上报数据,处理所述上报数据以获取目标数据;将所述目标数据写入数据库。根据本申请实施例的方法,可以大大提高数据收集方案应对大流量应用场景的能力,以及,提高数据收集方案对不同业务的适应性。适应性。适应性。

【技术实现步骤摘要】
一种数据收集方法、装置和电子设备


[0001]本申请涉及大数据领域,特别涉及一种数据收集方法、装置和电子设备。

技术介绍

[0002]大数据(Big data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,其具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
[0003]随着云时代的来临,大数据也吸引了越来越多的关注。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。而在对大数据进行专业化处理之前,一个无法绕过的环节就是大数据的收集,因此,需要一种针对大数据的收集方法。

技术实现思路

[0004]针对现有技术中大数据应用场景下如何收集数据的问题,本申请提供了一种数据收集方法、装置和电子设备。
[0005]本申请实施例采用下述技术方案:
[0006]第一方面,本申请提供一种数据收集方法,包括:
[0007]基于超文本传送协议服务获取上报数据;
[0008]将所述上报数据保存到分布式队列;
[0009]从所述分布式队列中读取所述上报数据,处理所述上报数据以获取目标数据;
[0010]将所述目标数据写入数据库。
[0011]在上述第一方面的一种可行的实现方式中,所述上报数据采用JSON格式。
[0012]在上述第一方面的一种可行的实现方式中,所述分布式队列为基于kafka平台所构建的分布式队列。
[0013]在上述第一方面的一种可行的实现方式中,所述方法还包括:
[0014]根据获取所述上报数据的节点数以及处理所述上报数据的节点数,设定所述分布式队列的分区数。
[0015]在上述第一方面的一种可行的实现方式中:
[0016]所述方法还包括,在kafka中创建数据主题,所述数据主题与所述上报数据的类型对应;
[0017]所述将所述上报数据保存到分布式队列,包括,直接将所述上报数据写入对应的所述数据主题。
[0018]在上述第一方面的一种可行的实现方式中,所述方法还包括:
[0019]监控所述分布式队列的运行状况;
[0020]根据所述分布式队列的运行状况确认当前数据收集状况;
[0021]根据所述当前数据收集状况调配系统资源。
[0022]在上述第一方面的一种可行的实现方式中,所述基于超文本传送协议服务获取上报数据,其中,基于分布式组件获取所述上报数据。
[0023]在上述第一方面的一种可行的实现方式中,所述基于超文本传送协议服务获取上报数据,其中,当第一IP地址的上报次数在单位时间内到达预设的上报数阈值时,在预设时长内不再响应所述第一IP地址的上报。
[0024]在上述第一方面的一种可行的实现方式中,所述基于超文本传送协议服务获取上报数据,包括:
[0025]获取所述上报数据;
[0026]基于所述上报数据的头部令牌,验证所述上报数据的真伪性。
[0027]在上述第一方面的一种可行的实现方式中,所述基于超文本传送协议服务获取上报数据,包括:
[0028]获取所述上报数据;
[0029]为所述上报数据添加上报时间和/或上报IP地址。
[0030]在上述第一方面的一种可行的实现方式中,所述处理所述上报数据以获取目标数据,其中,基于分布式组件处理所述上报数据。
[0031]第二方面,本申请提供一种数据收集装置,包括:
[0032]分布式队列,其用于保存上报数据;
[0033]数据获取模块,其用于基于超文本传送协议服务获取上报数据,并且,将所述上报数据保存到所述分布式队列;
[0034]数据处理模块,其用于从所述分布式队列中读取所述上报数据,处理所述上报数据以获取目标数据,并且,将所述目标数据写入数据库。
[0035]第三方面,本申请提供一种电子设备,所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述电子设备执行如上述第四方面所述的方法步骤。
[0036]根据本申请实施例所提出的上述技术方案,至少可以实现下述技术效果:
[0037]根据本申请实施例的方法,可以大大提高数据收集方案应对大流量应用场景的能力,以及,提高数据收集方案对不同业务的适应性。
附图说明
[0038]图1所示为根据一实施例的数据收集系统结构示意图;
[0039]图2所示为根据一实施例的数据收集系统结构示意图;
[0040]图3所示为根据一实施例的数据收集系统结构示意图;
[0041]图4所示为根据本申请一实施例的数据收集方法流程图
[0042]图5所示为根据本申请一实施例的数据收集装置结构框图;
[0043]图6所示为根据本申请一实施例的数据收集装置结构示意图;
[0044]图7所示为根据本申请一实施例的方法部分流程图;
[0045]图8所示为根据本申请一实施例的方法部分流程图;
[0046]图9所示为根据本申请一实施例的方法部分流程图;
[0047]图10所示为根据本申请一实施例的装置部分结构框图。
具体实施方式
[0048]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0049]本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
[0050]在大数据应用场景下,通常的数据收集流程为:
[0051]获取终端设备所上报的上报数据;
[0052]对获取到的上报数据进行处理以获取目标数据,例如,对上报数据进行过滤、清洗、合并或转化以获取目标数据;
[0053]将获取到的目标数据保存到数据库。
[0054]针对现有技术中大数据应用场景下如何收集数据的问题,一种可行的解决方案是:针对不同的场景,做不同的处理。例如,创建两个相互独立的模块,一个模块用于收集终端上报的超文本传送协议服务(Http)数据(自定义Http服务),另一个模块用于处理定时任务离线文件;每个模块单独维护自身的每个组件。
[0055]图1所示为根据一实施例的数据收集系统结构示意图。如图1所示,基于简单网络服务(Web Service)构建网络服务器(Webserver)110。在网络服务器(Webserver)110中构建用于数据收集的收集模块111以及用于数据处理的处理模块112。
[0056]上报数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据收集方法,其特征在于,包括:基于超文本传送协议服务获取上报数据;将所述上报数据保存到分布式队列;从所述分布式队列中读取所述上报数据,处理所述上报数据以获取目标数据;将所述目标数据写入数据库。2.根据权利要求1所述的方法,其特征在于,所述上报数据采用JSON格式。3.根据权利要求1所述的方法,其特征在于,所述分布式队列为基于Kafka平台所构建的分布式队列。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据获取所述上报数据的节点数以及处理所述上报数据的节点数,设定所述分布式队列的分区数。5.根据权利要求4所述的方法,其特征在于:所述方法还包括,在Kafka中创建数据主题,所述数据主题与所述上报数据的类型对应;所述将所述上报数据保存到分布式队列,包括,直接将所述上报数据写入对应的所述数据主题。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:监控所述分布式队列的运行状况;根据所述分布式队列的运行状况确认当前数据收集状况;根据所述当前数据收集状况调配系统资源。7.根据权利要求1所述的方法,其特征在于,所述基于超文本传送协议服务获取上报数据,其中,基于分布式组件获取所述上报数据。8.根据权利要求1所述的方法,其特征在于,所述基于超文本传送协议服务...

【专利技术属性】
技术研发人员:明磊耿美佳
申请(专利权)人:联通智网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1