一种数据收集和调节的方法技术

技术编号:19964063 阅读:32 留言:0更新日期:2019-01-03 12:44
本发明专利技术公开了一种数据收集和调节的方法,包括:接收多个数据记录,进行数据处理和等待;将处理后的数据从第一队列中拉出以进行处理;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;将格式化的多个数据记录发送到第二队列并进行保存;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和同时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。

A Method of Data Collection and Regulation

The invention discloses a method for data collection and adjustment, which includes: receiving multiple data records for data processing and waiting; pulling the processed data out of the first queue for processing; continuously monitoring at least one of the rates of multiple data records formatted during the method; determining whether the size or reception rate is outside the receiving range; and more formatted data. The data records are sent to the second queue and saved; at least one of the rates of multiple formatted data records is continuously monitored during the method; whether the size or reception rate is outside the receiving range is determined; according to the determination, the data sink nodes are automatically allocated or cancelled to a specified number of data sink nodes during processing; and each formatted sink node is simultaneously allocated more than one. The data records are sent to at least one of the multiple data receivers for storage in which the formatted data records can be used by multiple applications.

【技术实现步骤摘要】
一种数据收集和调节的方法
本专利技术涉及大数据
,具体而言,涉及一种数据收集和调节的方法。
技术介绍
通常要解决的问题是如何管理和分析大数据,例如,大约数PB的数据。大数据被广义地定义为数据集,其大小超出了常用软件工具在合理的时间内捕获,管理,管理和处理数据的能力。世界的信息大约每两年翻一番。这些信息(或数据)包括关键情报,但对这种情报的挖掘变得成本过高,并且对于许多最终用户和应用程序而言需要太长时间。传统数据集包括填充关系数据库的历史,结构化,静态数据的狭窄子集;大数据为最终用户提供了一个特别困难的问题,因为它是无限的,可以是结构化的和非结构化的,经常可以实时获得并且可以是迭代的。对于当前的关系数据库管理系统而言,这样的大数据对于没有重要处理而言太麻烦,这是耗时的并且最终使得大部分数据过时且价值有限。
技术实现思路
本专利技术提出了数据收集和调节的方法,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在该方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。所述的方法,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。所述的方法,还包括:连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。所述的方法,其中第一和第二队列是Java消息服务(JMS)队列,并且内部格式是JMS格式。所述的方法,还包括:通过处理引擎近似实时地比较来自摄取节点的每个格式化的多个数据记录与至少第一富集规则,以确定至少第一富集规则是否适用于一个或多个中的至少一个数据元素。格式化的多个数据记录;和如果适用的话,由处理引擎近乎实时地丰富一个或多个格式化的多个数据记录中的至少一个数据元素,该数据元素具有根据至少第一富集规则的附加数据,以形成一个或多个丰富的格式化数据记录。所述的方法,其中将所述多个数据记录中的每一个从它们各自的本机格式中的每一个处理成相同的内部格式还包括:通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和通过至少一个翻译器将多个数据记录中的每一个使用其解析的多个组成部分转换成相同的内部格式,近实时地翻译。所述的方法,其中相同的内部格式包括多个字段,其中所述多个字段中的至少第一个对于来自所述多个数据源的所有多个数据记录是共同的,并且所述多个字段中的至少第二个是唯一的多个数据记录的单个类。所述的方法,其中所述多个数据源包括从由关系数据库,网站,RSS提要,SIEM文件,电子邮件存档组成的组中选择的至少两个源。所述的方法,其中所述至少一个解析器选自包括逗号分隔值解析器,电子邮件解析器,可交换图像文件格式(EXIF)解析器,JavaScript开放符号(JSON)的组。)解析器,Libcap解析器和根据多个数据记录的一个或多个本机格式的XML解析器。所述的方法,其中所述至少第一富集规则选自算法富集规则和维度富集规则。所述的方法,其中所述算法丰富规则是地理位置的添加。所述的方法,其中所述维度富集包括:将来自每个格式化的多个数据记录的数据元素与数据丰富表中的二级数据进行比较;和根据辅助数据修改数据元素。附图说明从以下结合附图的描述可以进一步理解本专利技术。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。图1是本专利技术的数据收集和调节的方法示意图。具体实施方式为了使得本专利技术的目的、技术方案及优点更加清楚明白,以下结合其实施例,对本专利技术进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内、包括在本专利技术的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。实施例一:如图1所示,为本专利技术数据收集和调节的方法的示意图,包括:包括:接收多个数据记录,进行数据处理和等待;将处理后的数据从第一队列中拉出以进行处理;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;将格式化的多个数据记录发送到第二队列并进行保存;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和同时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在该方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。所述的方法,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。所述的方法,还包括:连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果本文档来自技高网...

【技术保护点】
1.一种数据收集和调节的方法,其特征在于,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。...

【技术特征摘要】
1.一种数据收集和调节的方法,其特征在于,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。2.如权利要求1所述的方法,其特征在于,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。3.如权利要求1所述的方法,其特征在于,还包括:连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。4.如权利要求1所述的方法,其特征在于,第一和第二队列是Java消息服务(JMS)队列,并且内部格式是JMS格式。5.如权利要求1所述的方法,其特征在于,还包括:...

【专利技术属性】
技术研发人员:刘聪玲易卜拉欣·卡赛木孙小艺
申请(专利权)人:佛山市甜慕链客科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1