System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,具体而言,涉及一种多数据流并行处理方法、装置及非易失性存储介质。
技术介绍
1、相关技术中在对数据流进行关联时,通常是在计算层来对实时数据流进行关联,并且在关联时需要引入外部存储系统,导致存储和网络传输压力大,容易形成性能瓶颈,并且计算任务的缓存数据量极大。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种多数据流并行处理方法、装置及非易失性存储介质,以至少解决相关技术中在对数据流进行关联时在计算层进行实时数据流关联造成的计算任务缓存量数据极大的技术问题。
2、根据本申请实施例的一个方面,提供了一种多数据流并行处理方法,包括:确定目标任务流的任务配置信息,其中,目标任务流包括至少一个数据流,任务配置信息包括目标任务流中的数据流之间的关联方式,目标任务流中的各个数据流的数据特征信息,以及数据流的数据表类型;在目标任务流的预写入攒批阶段,依据任务配置信息对目标任务流中的数据流执行第一类操作,其中,第一类操作包括以下至少之一:数据去重,数据关联;在目标任务流的数据写入合并阶段,依据任务配置信息对目标任务流中的数据流进行持久化落盘处理。
3、可选地,关联方式包括以下之一:普通写入模式、宽表连接模式、数据流join模式。
4、可选地,在关联方式为宽表连接模式的情况下,依据任务配置信息对目标任务流中的数据流执行第一类操作的步骤包括:确定目标任务流中是否存在键值相同的目标数据;在确定
5、可选地,在关联方式为数据流join模式的情况下,依据任务配置信息对目标任务流中的数据流执行第一类操作的步骤包括:确定目标任务流中是否存在键值相同的目标数据;在确定存在键值相同的目标数据的情况下,确定具有相同键值的目标数据是否属于同一数据表;在确定目标数据对应同一数据表的情况下,保留数据生成时间更晚的目标数据;在确定数据不对应同一数据表的情况下,对数据对应的数据流进行数据流join处理。
6、可选地,对数据对应的数据流进行数据流join处理的步骤包括:确定数据流之间的join顺序,并按照join顺序对数据流进行关联;在再次按照join顺序对数据流进行关联时关联方式为inner.join或者right.join,并且存在join关联失败的情况下,返回并标记目标数据为隐藏数据;在再次按照join顺序对数据流进行关联时关联方式为left.join的情况下,返回目标数据,并对数据流中未参与关联的数据添加隐藏标记。
7、可选地,在关联方式为数据流join模式的情况下,依据任务配置信息对目标任务流中的数据流进行持久化落盘处理的步骤包括:确定数据流的表类型信息对应的写入合并逻辑,其中,写入合并逻辑包括对第一类数据流和第二类数据流的写入合并方式,第一类数据流为对应的数据中存在隐藏标记的数据流,第二类数据流为对应的数据中不存在隐藏标记的数据流;依据数据流对应的写入合并逻辑对数据流进行持久化落盘处理。
8、可选地,在关联方式为宽表连接模式的情况下,依据任务配置信息对目标任务流中的数据流进行持久化落盘处理的步骤包括:确定键值相同的目标数据;确定目标数据的生成时间,并确定最新生成的目标数据所在的目标列;采用目标列覆盖历史数据,并在覆盖后对数据流关联的数据进行持久化落盘处理。
9、可选地,任务配置信息还包括并行度;确定目标任务流的配置信息的步骤包括:获取预设的并行度参数;或者,确定目标任务流关联的数据源数量;依据数据源数量配置目标任务流的并行度参数。
10、可选地,在依据任务配置信息对目标任务流中的数据流进行持久化落盘处理的步骤之后,多数据流并行处理方法还包括:确定数据查询指令的查询类型,以及数据查询指令对应的数据表的表类型;依据查询类型和表类型,对数据表中的数据进行处理。
11、根据本申请实施例的另一方面,还提供了一种多数据流并行处理装置,包括:第一处理模块,用于确定目标任务流的任务配置信息,其中,目标任务流包括至少一个数据流,任务配置信息包括目标任务流中的数据流之间的关联方式,目标任务流中的各个数据流的数据特征信息,以及数据流的数据表类型;第二处理模块,用于在目标任务流的预写入攒批阶段,依据任务配置信息对目标任务流中的数据流执行第一类操作,其中,第一类操作包括以下至少之一:数据去重,数据关联;第三处理模块,用于在目标任务流的数据写入合并阶段,依据任务配置信息对目标任务流中的数据流进行持久化落盘处理。
12、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质中存储有程序,其中,在程序运行时控制非易失性存储介质所在设备执行多数据流并行处理方法。
13、根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行多数据流并行处理方法。
14、在本申请实施例中,采用确定目标任务流的任务配置信息,其中,目标任务流包括至少一个数据流,任务配置信息包括目标任务流中的数据流之间的关联方式,目标任务流中的各个数据流的数据特征信息,以及数据流的数据表类型;在目标任务流的预写入攒批阶段,依据任务配置信息对目标任务流中的数据流执行第一类操作,其中,第一类操作包括以下至少之一:数据去重,数据关联;在目标任务流的数据写入合并阶段,依据任务配置信息对目标任务流中的数据流进行持久化落盘处理的方式,通过在预写入攒批阶段对数据流进行关联,达到了将数据流的关联逻辑下沉到数据湖的存储层的目的,从而实现了无需将所有的数据关联任务均在计算层中执行的技术效果,进而解决了相关技术中在对数据流进行关联时在计算层进行实时数据流关联造成的计算任务缓存量数据极大技术问题。
本文档来自技高网...【技术保护点】
1.一种多数据流并行处理方法,其特征在于,包括:
2.根据权利要求1所述的多数据流并行处理方法,其特征在于,所述关联方式包括以下之一:普通写入模式、宽表连接模式、数据流JOIN模式。
3.根据权利要求2所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述宽表连接模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流执行第一类操作的步骤包括:
4.根据权利要求2所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述数据流JOIN模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流执行第一类操作的步骤包括:
5.根据权利要求4所述的多数据流并行处理方法,其特征在于,所述对所述数据对应的数据流进行数据流JOIN处理的步骤包括:
6.根据权利要求5所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述数据流JOIN模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流进行持久化落盘处理的步骤包括:
7.根据权利要求2所述的多数据流并行处理方法,其特征在于,在所述关联
8.根据权利要求1所述的多数据流并行处理方法,其特征在于,所述任务配置信息还包括并行度;所述确定目标任务流的配置信息的步骤包括:
9.根据权利要求1所述的多数据流并行处理方法,其特征在于,在所述依据所述任务配置信息对所述目标任务流中的数据流进行持久化落盘处理的步骤之后,所述多数据流并行处理方法还包括:
10.一种多数据流并行处理装置,其特征在于,包括:
11.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所述的多数据流并行处理方法。
12.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的多数据流并行处理方法。
...【技术特征摘要】
1.一种多数据流并行处理方法,其特征在于,包括:
2.根据权利要求1所述的多数据流并行处理方法,其特征在于,所述关联方式包括以下之一:普通写入模式、宽表连接模式、数据流join模式。
3.根据权利要求2所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述宽表连接模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流执行第一类操作的步骤包括:
4.根据权利要求2所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述数据流join模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流执行第一类操作的步骤包括:
5.根据权利要求4所述的多数据流并行处理方法,其特征在于,所述对所述数据对应的数据流进行数据流join处理的步骤包括:
6.根据权利要求5所述的多数据流并行处理方法,其特征在于,在所述关联方式为所述数据流join模式的情况下,所述依据所述任务配置信息对所述目标任务流中的数据流进行持久化落盘处理的步骤包括:
7.根据权利要求...
【专利技术属性】
技术研发人员:王鹏哲,阮宜龙,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。