一种数据统计处理方法及装置制造方法及图纸

技术编号:22218793 阅读:28 留言:0更新日期:2019-09-30 01:12
本说明书提供一种数据统计处理方法及装置,通过实时监测数据统计时的实时数据流量,基于实时数据流量和历史数据流量,确定当前数据统计时的数据波动情况,结合当前系统资源使用率,实时调整数据统计时数据过期的时间参数。避免在数据流量比较大时,导致数据统计不完全,导致数据统计结果不准确,还可以在数据流量较小,系统处理能力较强时,提升数据统计的效率。实现了数据的灵活统计,适用于不同数据量的数据统计场景,提高了数据统计的准确性。

A Data Statistical Processing Method and Device

【技术实现步骤摘要】
一种数据统计处理方法及装置
本说明书属于计算机
,尤其涉及一种数据统计处理方法及装置。
技术介绍
随着计算机技术互联网技术的发展,越来越多的业务需要利用计算机技术进行数据统计,数据统计的结果可以用于业务规划、系统配置等。在进行数据统计尤其是流式数据的统计处理时,通常会将一部分数据聚合后保存在内存中一定时间,在一定时间之后的获取到的数据会被丢弃。流式数据可以表示由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送。但是,由于无法获得每个业务时间的数据什么时候来完,若在指定时间内该业务时间的数据没有统计完,会被丢弃,导致数据统计结果不准确,影响为后续的业务处理的准确性。
技术实现思路
本说明书实施例的目的在于提供一种数据统计处理方法及装置,提高了数据统计处理的准确性。一方面本说明书实施例提供了一种数据统计处理方法,包括:监测数据统计时的实时数据流量;根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值;根据所述波动差值,确定数据统计处理时数据过期的时间参数的值;基于所述时间参数的值进行数据统计处理。另一方面,本说明书提供了一种数据统计处理装置,包括:数据流量检测模块,用于监测数据统计时的实时数据流量;波动差值计算模块,用于根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值;时间参数设置模块,用于根据所述波动差值,确定数据统计处理时数据过期的时间参数的值;数据统计模块,用于基于所述时间参数的值进行数据统计处理。还一方面,本说明书提供了一种数据统计处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述数据统计处理方法。又一方面,本说明书实施例提供了数据统计处理系统,包括:数据流量监测模块、统计时间参数调整模块、数据统计模块,其中:所述数据流量监测模块用于:监测数据统计时接收到上游系统发送的数据的实时数据流量;根据所述实时数据流量,计算预设时间内的数据量和预先确定的历史数据量之间的波动差值;根据所述波动差值与波动等级之间的映射关系,确定当前数据统计时的波动等级;所述统计时间参数调整模块用于:根据确定出的波动等级,确定当前数据统计时数据过期的时间参数的值;所述数据统计模块用于根据下述规则进行数据统计处理:若统计到的数据在所述时间参数的值对应的时间范围内,则保存统计到的数据;若统计到的数据不在所述时间参数的值对应的时间范围内,则将统计到的数据丢弃。本说明书提供的数据统计处理方法、装置、处理设备、系统,通过实时监测数据统计时的实时数据流量,基于实时数据流量和历史数据流量,确定当前数据统计时的数据波动情况,实时调整数据统计时数据过期的时间参数的取值。避免在数据流量比较大时,导致数据统计不完全,导致数据统计结果不准确,还可以在数据流量较小,系统处理能力较强时,提升数据统计的效率。实现了数据的灵活统计,适用于不同数据量的数据统计场景,提高了数据统计的准确性。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本说明书一个实施例中数据统计处理方法的流程示意图;图2是本说明书又一实施例中数据统计处理的流程示意图;图3是本说明书提供的数据统计处理装置一个实施例的模块结构示意图;图4是本说明书一个实施例中提供的数据统计处理系统的结构示意图;图5是本说明书一个实施例中数据统计处理服务器的硬件结构框图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。随着计算机和互联网技术的不断发展,数据量和数据的种类也在不断的增加,越来越多的业务需要对不同的数据进行数据统计处理。如:统计指定时间范围内某网站的用户访问量,统计指定时间范围内某商品的购买量等。例如:本说明书一些场景示例中,可以利用microbatch(微批计算)流引擎进行实时数据统计时,通常情况下将实时流数据处理成一个个的batch(批次),再在batch的基础上根据业务时间戳聚合。但流式数据存在一个问题,不知道每个业务时间的数据什么时候来完。因此一般会将聚合后的数据放在内存中保留一定时间(根据业务逻辑确定),在这段时间中如果来了相同业务时间的数据,会做update(更新),如果在一定时间之后来的数据都会被丢弃。例如系统设置的过期时间是5分钟,而2018/10/1000:00的数据在2018/10/1000:06分来,那这笔00:00的数据将会被丢弃,不进入数据统计。本说明书一个场景实例中,可以统计每天指定时间内某网站的用户访问量,如:统计每一天每分钟的用户访问量,用户可以通过不同的客户端访问该网站,每当有用户访问该网站时,客户端可以将用户的访问数据发送到用于数据统计处理的装置如:数据统计服务器。数据统计服务器接收各个客户端发送的用户访问数据,基于用户访问数据中各个用户访问网站的时间,将在同一分钟访问网站的数据聚合,统计出每分钟网站的访问量。但是,业务系统不可避免会经历蓄洪、促销等外部活动或动作造成的数据波动,如:用户在2018/10/1000:00访问网站的访问数据可能因为数据量较大,到在2018/10/1000:06分才发送到数据统计服务器。在进行数据统计时,通常以数据对应的业务时间为基础,将对应于相同业务时间的数据进行聚合并保存一定时间。在这段时间内接收到相同业务时间的数据,会将接收到的数据保存更新保存的聚合数据,超过这段时间的数据则直接丢弃,不会保存统计。本说明书一个场景实例中,在进行数据统计处理时,可以实时监测数据流的实时数据流量,根据监测到的实施数据流量和记录的历史数据量,确定当前数据统计与历史数据统计的波动差值。如:可以实时监测每分钟统计到的数据量,确定当前时间之前最近的15分钟内的数量,计算最近15分钟的数据量和历史7天同样的15分钟内的数据量的波动差值。根据计算出的波动差值,可以确定当前数据流量是否平稳,若相较历史数据流量,当前统计时数据波动较大,则调整数据统计处理时数据过期的时间参数。如:正常数据统计时,数据过期的时间参数为3分钟,即3分钟内统计到的数据会被保存,超过3分钟统计到的数据将会被丢弃。若根据数据流量的实时监测,若当前数据统计时,数据流量波动较大,则可以将时间参数延长,如将时间参数设置为5分钟。此时:若统计2018/10/1000:00的数据,只要在2018/10/1000:05分之前统计到的数据均会被保存,若在2018/10/1000:05分之后到来的数据会被丢弃。本说明书实施例中提供了一种数据统计处理方法,通过实时监测数据统计时的实时数据流量,基于实时数据流量和历史数据流量,确定当本文档来自技高网
...

【技术保护点】
1.一种数据统计处理方法,包括:监测数据统计时的实时数据流量;根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值;根据所述波动差值,确定数据统计处理时数据过期的时间参数的值;基于所述时间参数的值进行数据统计处理。

【技术特征摘要】
1.一种数据统计处理方法,包括:监测数据统计时的实时数据流量;根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值;根据所述波动差值,确定数据统计处理时数据过期的时间参数的值;基于所述时间参数的值进行数据统计处理。2.如权利要求1所述的方法,所述监测数据统计时的实时数据流量,包括:预先将统计周期划分成多个指定周期,并设置各个指定周期对应的统计标识;在各个指定周期内每统计一笔数据,将所述指定周期对应统计标识对应的标识值增加1,确定出所述指定周期内统计到的数据量;根据各个指定周期内统计到的数据量,确定出所述实时数据流量。3.如权利要求1所述的方法,所述根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值,包括:预先根据所述历史数据量,计算出指定历史统计周期内所述历史预设时间的历史数据量均值;根据所述实时数据流量确定出所述预设时间内的实时数据量;将所述实时数据量和所述历史数据量均值之间的差值作为所述波动差值。4.如权利要求1所述的方法,所述根据所述波动差值,确定数据统计处理时数据过期的时间参数的值,包括:预先设置不同的波动差值与波动等级之间的映射关系;根据所述波动差值和所述映射关系,确定当前数据统计时的波动等级;基于所述波动等级,确定所述时间参数的值。5.如权利要求4所述的方法,所述基于所述波动等级,确定所述时间参数的值包括:采用下述方法基于所述波动等级和系统资源使用率,确定所述时间参数的值:将最低的波动等级对应的时间参数的值作为基准时间参数值;在所述系统资源使用率小于预设使用率时,将指定波动等级与波动参数相加后与所述基准时间参数值的乘积作为所述指定波动等级对应的时间参数的值,所述指定波动等级为除了所述最低的波动等级之外的波动等级。6.如权利要求5所述的方法,所述方法还包括:若所述系统资源使用率超过所述预设使用率时,则进行报警提示。7.如权利要求1所述的方法,所述基于所述时间参数的值进行数据统计处理,包括:若统计到的数据在所述时间参数的值对应的时间范围内,则保存统计到的数据;若统计到的数据不在所述时间参数的值对应的时间范围内,则将统计到的数据丢弃。8.一种数据统计处理装置,包括:数据流量检测模块,用于监测数据统计时的实时数据流量;波动差值计算模块,用于根据所述实时数据流量,计算预设时间内的实时数据量和预先确定的历史预设时间内历史数据量之间的波动差值;时间参数设置模块,用于根据所述波动差值,确定数据统计处理时数据过期的时间参数的值;数据统计模块,用于基于所述时间参数的值进行数据统计处理。9.如权利要求...

【专利技术属性】
技术研发人员:蒋佩伶郭科彭姝雯吴君佳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1