The invention discloses a method for data collection and adjustment, which includes: receiving multiple data records for data processing and waiting; pulling the processed data out of the first queue for processing; continuously monitoring at least one of the rates of multiple data records formatted during the method; determining whether the size or reception rate is outside the receiving range; and more formatted data. The data records are sent to the second queue and saved; at least one of the rates of multiple formatted data records is continuously monitored during the method; whether the size or reception rate is outside the receiving range is determined; according to the determination, the data sink nodes are automatically allocated or cancelled to a specified number of data sink nodes during processing; and each formatted sink node is simultaneously allocated more than one. The data records are sent to at least one of the multiple data receivers for storage in which the formatted data records can be used by multiple applications.
【技术实现步骤摘要】
一种数据收集和调节的方法
本专利技术涉及大数据
,具体而言,涉及一种数据收集和调节的方法。
技术介绍
通常要解决的问题是如何管理和分析大数据,例如,大约数PB的数据。大数据被广义地定义为数据集,其大小超出了常用软件工具在合理的时间内捕获,管理,管理和处理数据的能力。世界的信息大约每两年翻一番。这些信息(或数据)包括关键情报,但对这种情报的挖掘变得成本过高,并且对于许多最终用户和应用程序而言需要太长时间。传统数据集包括填充关系数据库的历史,结构化,静态数据的狭窄子集;大数据为最终用户提供了一个特别困难的问题,因为它是无限的,可以是结构化的和非结构化的,经常可以实时获得并且可以是迭代的。对于当前的关系数据库管理系统而言,这样的大数据对于没有重要处理而言太麻烦,这是耗时的并且最终使得大部分数据过时且价值有限。
技术实现思路
本专利技术提出了数据收集和调节的方法,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录 ...
【技术保护点】
1.一种数据收集和调节的方法,其特征在于,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便 ...
【技术特征摘要】
1.一种数据收集和调节的方法,其特征在于,包括:在处理引擎处从多个数据源接收多个数据记录;将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;将接收和格式化的多个数据记录保存在第一个队列中以等待处理;通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;将接收到的格式化多个数据记录保存在第二个队列中;将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;在方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。2.如权利要求1所述的方法,其特征在于,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。3.如权利要求1所述的方法,其特征在于,还包括:连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。4.如权利要求1所述的方法,其特征在于,第一和第二队列是Java消息服务(JMS)队列,并且内部格式是JMS格式。5.如权利要求1所述的方法,其特征在于,还包括:...
【专利技术属性】
技术研发人员:刘聪玲,易卜拉欣·卡赛木,孙小艺,
申请(专利权)人:佛山市甜慕链客科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。