System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及云计算的,具体而言,涉及一种数据延迟处理方法、装置、电子设备、存储介质及产品。
技术介绍
1、随着数据规模越来越庞大,为了满足数据更加高效、精准、全面地展现和利用,离线数仓逐渐被广泛应用。离线数仓的主要功能是周期性的将实时产生的数据进行清洗、计算与落地,为数据的进一步分析提供数据支撑,辅助业务决策。
2、相关技术中,数据采集工具实时将采集到的数据传输至hfds集群,然后,通过定时调度计算的方式通过离线数仓对hfds集群中的数据进行处理。从数据产生到传输到hdfs集群的过程中,会经历复杂的网络io和运算过程,从而可能会导致数据延迟到达hdfs集群。由于离线数仓的计算过程均为定时调度计算,延迟到达的文件可能会错过计算周期导致无法参与计算过程,进一步导致数据缺失,影响应用层数据准确性与完整性。
技术实现思路
1、本公开实施例至少提供一种数据延迟处理方法、装置、电子设备、存储介质及产品。
2、第一方面,本公开实施例提供了一种数据延迟处理方法,包括:
3、确定待处理的日志数据的事件发生时间;
4、基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录;其中,所述文件目录用于指示所述日志数据在所述集群中的存储路径;
5、基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,并在离线数仓的各数据层对所述延迟到达日志进行同步处理。
6、一种可选的实施方式中,确定待处理的日志数据的事件发
7、在从各个数据源中采集得到所述日志数据之后,通过拦截器提取所述日志数据中的时间戳,得到所述事件发生时间。
8、一种可选的实施方式中,基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录,包括:
9、基于所述事件发生时间确定所述日志数据在所述集群中的存储路径;
10、在集群文件目录中记录所述存储路径;
11、按照预设时间间隔,将所述集群文件目录中目标时间段内产生的日志数据的文件目录同步至所述临时存储层的数据表。
12、一种可选的实施方式中,基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,包括:
13、基于所述临时存储层中文件目录所对应日志数据的数据量或者日志数据的事件发生时间,识别所述延迟到达日志。
14、一种可选的实施方式中,基于所述临时存储层中文件目录所对应日志数据的数据量,识别所述延迟到达日志,包括:
15、基于所述临时存储层中文件目录确定所对应日志数据的第一数据量,以及确定所述离线数仓的原始数据层中日志数据的第二数据量;
16、在所述第一数据量和所述第二数据量不一致的情况下,确定所述述临时存储层中存在所述延迟到达日志。
17、一种可选的实施方式中,基于所述临时存储层中文件目录所对应日志数据的事件发生时间,识别所述延迟到达日志,包括:
18、在所述临时存储层的文件目录中识别目标文件目录;其中,所述目标文件目录为在所述目标时间段之前产生的日志数据的文件目录;
19、在识别到所述目标文件目录的情况下,确定所述目标文件目录所对应日志为所述延迟到达日志。
20、第二方面,本公开实施例提供了一种数据延迟处理装置,包括:
21、确定单元,用于确定待处理的日志数据的事件发生时间;
22、存储单元,用于基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录;其中,所述文件目录用于指示所述日志数据在所述集群中的存储路径;
23、识别同步单元,用于基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,并在离线数仓的各数据层对所述延迟到达日志进行同步处理。
24、第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
25、第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
26、第五方面,本公开实施例还提供一种计算机程序产品,所述计算机程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行以实现上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
27、在本公开实施例中,首先,确定待处理的日志数据的事件发生时间;基于事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录;其中,文件目录用于指示日志数据在所述集群中的存储路径;基于预设规则和临时存储层中文件目录,识别延迟到达日志,并在离线数仓的各数据层对延迟到达日志进行同步处理。
28、上述实施方式中,通过确定待处理的日志数据的事件发生时间,进而根据该事件发生时间在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录的方式,可以根据该事件发生时间有效识别延迟到达日志,从而避免由于数据延迟导致离线数仓中数据缺失的情况,有效保证数据产出的及时性,无需定期更新计算一定范围内的历史数据,节省了存储与计算资源。
29、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文档来自技高网...【技术保护点】
1.一种数据延迟处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待处理的日志数据的事件发生时间,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的数据量,识别所述延迟到达日志,包括:
6.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的事件发生时间,识别所述延迟到达日志,包括:
7.一种数据延迟处理装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的数据延迟处理方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行以实现如权利要求1至6任一所述的数据延迟处理方法的步骤。
...【技术特征摘要】
1.一种数据延迟处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待处理的日志数据的事件发生时间,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的数据量,识别所述延迟到达日志,包括:
6.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的事件发生时间,识别所述延迟到达日...
【专利技术属性】
技术研发人员:牟晓敏,胡苏,顾明,饶明佺,王宝刚,
申请(专利权)人:咪咕文化科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。