System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书实施例涉及数据处理领域,特别地,涉及一种流批数据融合的处理方法、装置、设备、存储介质和产品。
技术介绍
1、在银行业it系统体系中,系统间数据采集加工和使用方式一般有批量和实时两种方式。目前比较常用的是使用传统的数据采集和加工方式,数据系统通过每日日终批量获取各个源系统的数据,当日产生的业务数据次日才能落库用于数据展示或者数据处理分析,用户无法立刻查阅使用当日业务数据。
2、为了提高数据时效性,近年来,业内逐渐引入了一套基于数据采集组件,数据发布传输组件和流计算引擎的流数据供给方案。但是由于在整个过程链路较长,多个环节存在数据丢失可能性,导致数据供给的准确性和可靠性低于批量数据供给方式。
3、现有技术中无论是采用批量数据处理还是流数据处理的方式均有相应的缺陷,因此现在亟需一种流批数据融合的处理方法,能够融合流批两种数据处理方法,兼顾数据的时效性和准确性。
技术实现思路
1、本说明书实施例的目的在于提供一种流批数据融合的处理方法、装置、设备、存储介质和产品,以融合流批两种数据处理方法,兼顾数据的时效性和准确性。
2、为达到上述目的,一方面,本说明书实施例提供了一种流批数据融合的处理方法,包括:
3、实时获取源数据库中某一时刻产生的变动数据记录;
4、将变动数据记录中变动数据写入hbase的第一列族,并将所述某一时刻写入作为所述变动数据的时间戳;
5、固定时间获取源数据库中每日的批量数据文件;
7、优选的,所述将变动数据记录中变动数据写入hbase的第一列族,并将所述某一时刻写入作为所述变动数据的时间戳之前还包括:
8、将所述变动数据记录实时发送至消息队列kafka的消息逻辑单元topic中;
9、由topic中接收所述变动数据记录,将接收到的变动数据记录通过flink进行加工处理。
10、优选的,所述加工处理进一步包括:
11、判断变动数据记录中是否存在目标字段;
12、若是,则查询字典表,
13、当所述字典表中存在所述变动数据记录中目标字段的值时,将所述变动数据记录中目标字段的值,替换为所述字典表中的实际值,所述实际值与所述目标字段的值一一对应;
14、当所述字典表中不存在所述变动数据记录中目标字段的值时,将所述变动数据记录写入错误日志中,并停止将所述变动数据记录中变动数据写入hbase的第一列族。
15、优选的,所述将批量数据文件中批量数据写入hbase的第二列族之前还包括:
16、根据所述批量数据文件中批量数据记录的数据来源,将所有批量数据记录分别加载至不同的hive数据表;
17、由任务调度器oozie对hive数据表进行批处理计算;
18、将计算后的hive数据表进行数据格式转换,得到转换后的批量数据文件。
19、优选的,所述对hive数据表进行批处理计算进一步包括:
20、根据其他hive数据表中的批量数据记录,对目标hive数据表中的批量数据记录进行新增字段或删除字段。
21、优选的,还包括:
22、当接收到查询请求时,根据所述查询请求查询hbase中第一列族和第二列族,得到与所述查询请求相匹配的变动数据和批量数据;
23、反馈所述变动数据和批量数据中时间戳最新者对应的数据。
24、另一方面,本说明书实施例提供了一种流批数据融合的处理装置,所述装置包括:
25、实时获取模块,用于实时获取源数据库中某一时刻产生的变动数据记录;
26、变动写入模块,用于将变动数据记录中变动数据写入hbase的第一列族,并将所述某一时刻写入作为所述变动数据的时间戳;
27、固定获取模块,用于固定时间获取源数据库中每日的批量数据文件;
28、批量写入模块,用于将批量数据文件中批量数据写入hbase的第二列族,并将每一批量数据的产生时刻写入作为相应批量数据的时间戳。
29、又一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述任意一项所述方法的指令。
30、又一方面,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述任意一项所述方法的指令。
31、又一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品被计算机设备的处理器运行时,执行上述任意一项所述方法的指令。
32、由以上本说明书实施例提供的技术方案可见,通过本说明书实施例的方法,对流数据处理和批数据处理进行融合,在通过hbase实时存储变动数据的同时,还在固定时间将每日的批量数据通过hbase存储,由于变动数据实时获取,能够确保数据的时效性,再通过批量数据对变动数据进行补充,防止由于变动数据,提升数据的可靠性和准确性,进而兼顾数据的时效性和准确性。
33、为让本说明书的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
本文档来自技高网...【技术保护点】
1.一种流批数据融合的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将变动数据记录中变动数据写入HBase的第一列族,并将所述某一时刻写入作为所述变动数据的时间戳之前还包括:
3.根据权利要求2所述的方法,其特征在于,所述加工处理进一步包括:
4.根据权利要求1所述的方法,其特征在于,所述将批量数据文件中批量数据写入HBase的第二列族之前还包括:
5.根据权利要求4所述的方法,其特征在于,所述对Hive数据表进行批处理计算进一步包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.一种流批数据融合的处理装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-6任意一项所述方法的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-6任意一项所述方法的
10.一种计算机程序产品,其特征在于,所述计算机程序产品被计算机设备的处理器运行时,执行根据权利要求1-6任意一项所述方法的指令。
...【技术特征摘要】
1.一种流批数据融合的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将变动数据记录中变动数据写入hbase的第一列族,并将所述某一时刻写入作为所述变动数据的时间戳之前还包括:
3.根据权利要求2所述的方法,其特征在于,所述加工处理进一步包括:
4.根据权利要求1所述的方法,其特征在于,所述将批量数据文件中批量数据写入hbase的第二列族之前还包括:
5.根据权利要求4所述的方法,其特征在于,所述对hive数据表进行批处理计算进一步包括:
6.根据权利要求1所述的方法,其特征在于...
【专利技术属性】
技术研发人员:韩抱冰,鲁稼苇,杨逸菲,成佩庆,郑睿,
申请(专利权)人:中国光大银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。