本发明专利技术公开了一种数据处理方法。当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。从而在保证数据统计完整的前提下及时进行处理,提高了数据处理结果的准确性和实时性。
【技术实现步骤摘要】
一种数据处理方法和设备
本专利技术涉及通信
,特别涉及一种数据处理方法,本申请同时还涉及一种数据处理设备。
技术介绍
作为一种新的数据处理方式,流式计算能够对动态产生的数据进行实时计算并及时反馈结果。目前,流式计算已广泛应用于金融银行业应用、互联网应用和物联网应用等领域中,主要用于对一定时间间隔内的数据进行统计,即对于预定时间窗口内的数据进行统计。在现有技术中,流式计算所存在时间窗口分为“系统时间窗口”以及“数据时间窗口”这两种,其各自的特点以及缺点如下:(1)系统时间窗口系统时间窗口基于系统时间对数据产生端的数据进行统计,首先根据预设的时间间隔将数据的统计时间划分为多个系统时间窗口,然后输出系统时间窗口统计结果。若仅按照系统时间窗口对数据进行处理的话,数据从产生端到统计端是有一定延迟性,在系统时间窗口内处理的数据往往不等于实际过程中产生端在预设时间间隔内所产生的数据,这使得流式计算的结果会受到影响。(2)数据时间窗口数据时间窗口基于数据时间对数据产生端的数据进行统计。在实际统计过程中,受到数据产生端的设备的时钟不完全同步以及数据采集传输过程的快慢程度的影响,统计端接收到数据的数据时间未必是按照数据时间的先后顺序严格递增的。因此基于数据时间窗口的统计结果中就会出现数据乱序的问题。在实际统计过程中很容易出现当前数据时间窗口的边缘会有部分数据跨越到另一数据时间窗口中的情况,使得流式计算的结果受到影响。一旦出现在数据乱序的情况下,只有通过保证当前数据时间窗口的所有数据都到达统计端,才能够保证流式计算的准确程度。因此现有的实际统计过程只有在统计端接收到数据的数据时间超过数据时间窗口并达到预设值时或者统计端接收到下一数据时间窗口的数据达到预设数量时,才关闭当前数据时间窗口。在实现本申请的过程中,专利技术人发现现有技术至少存在如下问题:(1)流式计算的数据通常是不稳定的,当某个统计项数据量较少时,下个数据时间窗口数据一直没有到达统计端,当前数据时间窗口的统计结果没有及时输出,导致数据统计延误,使得流式计算的结果受到影响。(2)流式计算的同级计算单元一般都是并发多个的,当需要同级计算单元的统计结果按顺序输出时,由于不同计算单元的处理进度的不同,则会出现不同计算单元的数据的数据时间不同步的情况,使得流式计算的结果受到影响。由此可见,现有技术在针对流式计算中进行实时统计数据时,无法在保证数据统计完整的前提下及时输出统计数据,同时不能对统计数据的进行全局同步,从而影响了数据处理结果的准确性。
技术实现思路
本专利技术提供了一种数据处理方法,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,解决了保证统计数据完整和实时进行统计数据处理二者无法兼顾的问题。该方法应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述方法包括:当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。优选地,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口,具体为:根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;若是,确认所述待处理数据在当前系统时间窗口范围之内;若否,确认所述待处理数据在之前系统时间窗口范围之内。优选地,所述方法还包括:当所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。优选地,所述方法还包括:当所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。优选地,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。相应地,本申请还提出了一种数据处理设备,该设备应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述设备包括:确定模块,当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;第一处理模块,在所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;第二处理模块,在所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。优选地,所述确定模块具体用于:根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;若是,确认所述待处理数据在当前系统时间窗口范围之内;若否,确认所述待处理数据在之前系统时间窗口范围之内。优选地,所述设备还包括:第一输出模块,在所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。优选地,所述设备还包括:第二输出模块,在所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。优选地,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。由此可见,通过应用本申请的技术方案,在针对需要实时并完整输出计算结果的流式计算过程中,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,对统计数据的进行全局同步,可以在保证数据统计完整的前提下对其及时进行处理,从而提高了数据处理结果的准确性和实时性。附图说明图1为本申请提出的一种数据处理方法的流程示意图;图2为本申请的具体实施例所提出的一种数据处理方法的流程示意图;图3为本申请提出的一种数据处理设备的结构示意图。具体实施方式有鉴于现有技术中的问题,本申请提供了一种数据处理方法,通过在各个系统时间窗口预设关闭时间点以及同步时间点,并以关闭时间点和同步时间点为节点对待处理数据进行分段处理与输出,有效提高了数据处理结果的准确性和实时性。其中本文档来自技高网...
【技术保护点】
一种数据处理方法,应用于数据统计系统中,其特征在于,预先为所述数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述方法包括:当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
【技术特征摘要】
1.一种数据处理方法,应用于数据统计系统中,其特征在于,预先为所述数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述方法包括:当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。2.如权利要求1所述的方法,其特征在于,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口,具体为:根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;若是,确认所述待处理数据在当前系统时间窗口范围之内;若否,确认所述待处理数据在之前系统时间窗口范围之内。3.如权利要求1所述的方法,其特征在于,还包括:当所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。4.如权利要求1所述的方法,其特征在于,还包括:当所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。5.如权利要求1-4任一项所述的方法,其特征在于,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。6...
【专利技术属性】
技术研发人员:李灼灵,熊奇,韩森,李巨雷,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。