【技术实现步骤摘要】
处理乱序数据的方法、设备和可读存储介质
[0001]本专利技术涉及分布式计算领域,特别涉及一种处理乱序数据的方法、设备和可读存储介质。
技术介绍
[0002]Flink作为分布式计算框架,在大数据实时处理领域发挥了重要作用,而对于乱序数据的处理,Flink也提供了一系列的处理方式,主要就是通过水印(watermark)、允许延迟时间及侧输出的方式来解决。而在这几个方式中,watermark的设置尤为重要,其允许的延迟时间的合理性,将会使整个流程的处理更加合理与严谨。然而,现有技术在设置watermark时是按照研发人员的经验进行。然而,这种设置方式具有一定的主观性,或者具有滞后性,从而导致设置不科学、不合理。
技术实现思路
[0003]本申请提供一种处理乱序数据的方法、设备和计算机可读存储介质,以使设置的延迟时间在处理乱序数据时,对数据的波动变化响应客观合理并且及时。
[0004]一方面,本申请提供了一种处理乱序数据的方法,所述方法包括:
[0005]计算上一个事件处理周期内n条乱序数据每条乱序数据与上一条非乱序数据之间的时间戳绝对差值,得到n
‑
1个时间戳绝对差值,所述n为不小于20的自然数;
[0006]根据所述n
‑
1个时间戳绝对差值,确定延迟时间T
d
;
[0007]在当前事件处理周期,根据当前时间窗口内收到的数据的时间戳和所述延迟时间T
d
,确定当前最新水位线;
[0008]根据所 ...
【技术保护点】
【技术特征摘要】
1.一种处理乱序数据的方法,其特征在于,所述方法包括:计算上一个事件处理周期内n条乱序数据每条乱序数据与上一条非乱序数据之间的时间戳绝对差值,得到n
‑
1个时间戳绝对差值,所述n为不小于20的自然数;根据所述n
‑
1个时间戳绝对差值,确定延迟时间T
d
;在当前事件处理周期,根据当前时间窗口内收到的数据的时间戳和所述延迟时间T
d
,确定当前最新水位线;根据所述当前最新水位线、所述当前时间窗口的右边界和所述延迟时间T
d
,确定是否触发所述当前时间窗口开始处理所述当前时间窗口内收到的数据。2.如权利要求1所述的方法,其特征在于,所述根据所述n
‑
1个时间戳绝对差值,确定延迟时间T
d
,包括:按照大小顺序对所述n
‑
1个时间戳绝对差值排序;将排序在指定顺序号对应的时间戳绝对差值确定为所述延迟时间T
d
,所述指定顺序号小于所述排序中最大排序号。3.如权利要求1所述的方法,其特征在于,所述根据所述n
‑
1个时间戳绝对差值,确定延迟时间T
d
,包括:按照大小顺序对所述n
‑
1个时间戳绝对差值排序;将所述排序中最大排序号对应的时间戳绝对差值确定为所述延迟时间T
d
。4.如权利要求1所述的方法,其特征在于,所述根据所述n
‑
1个时间戳绝对差值,确定延迟时间T
d
,包括:求取所述n
‑
1个时间戳绝对差值的正态分布N(μ,σ2);将所述正态分布N(μ,σ2)中均值μ对应的时间戳绝对差值确定为所述延迟时间T
d
。5.如权利要求1所述的方法,其特征在于,所述根据当前时间窗口内收到的数据的时间戳和所述延迟时间T
d
,确定当前最新水位线,包括:将所述当前时间窗口内收到的每个数据的时间戳与所述延迟时间T
d
求差,得到所述当前时间窗口内收到的每个数据对应...
【专利技术属性】
技术研发人员:韩旭东,胡志鹏,程龙,刘勇成,袁思思,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。