System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于人工智能、金融领域及智慧医疗,尤其涉及一种基于人工智能的数据湖更新方法、装置、设备及介质。
技术介绍
1、数据湖是大数据应用的一种新技术,以一种新的方式将数据数据组织起来,实现传统数仓不具备的行级更新和删除。其中,数据湖架构(apache hudi)是一个功能比较丰富的开源数据湖架构。通常apache hudi数据入湖更新过程中,先定位数据所在文件,然后将命中文件读取到内存后,将对应数据整行替换后,再将整个文件重新写会到分布式文件系统(hdfs)。默认逻辑可以实现全字段cdc日志数据更新入湖功能。
2、数据允许将原始数据(结构化、半结构化、非结构化等)全量存入数据湖,而且数据湖存储的数据量巨大且来源多样,数据湖支持异构和多样的存储,在金融领域及智慧医疗领域,由于半结构化与非结构化数据的应用越来越被重视,允许原始数据(结构化、半结构化、非结构化等)全量存入的数据湖逐步替代需要定义数据存储模型,只针对结构化数据的数据仓库。
3、在大数据的背景下,随着医疗健康的智能化发展和数字化运用,针对多源异构数据的高效集成,面临着更为多样灵活的需求和严峻挑战。在传统医疗数据集成的方案中,需要考虑医疗数据的多样性,将不同格式类型的医疗数据存储在不同主题的数据仓库中。其次,当存储医疗数据的数据表格式发生变动时,存储数据的构架难以快速调整,需要重新构建新框架的数据表,导致医疗数据集成成本增加,同时医疗数据集成效率较低,无法满足实际需求,因此,数据湖由于允许将原始数据(结构化、半结构化、非结构化等)全量存入的特性
4、在金融领域,随着国内银行业数字化转型进程的加快,全行数字化转型步入深水区,业务线上化、移动化和场景化比例越来越高,相应地也带来了数据规模爆发式增长和数据类型多样性等问题,以人机交互、知识图谱等为主的人工智能技术对半结构、非结构数据的存储、特征提取以及数据加工提出了新的要求,单一的数据仓库技术已无法应对上述的挑战,因此,数据湖由于允许将原始数据(结构化、半结构化、非结构化等)全量存入的特性,在金融领域的应用越来越广泛。
5、为支持大数据实时计算,从数据库系统(oracle)同步的日志的结构化数据复制软件(ogg)日志到开源流处理平台(kafka),是一个比较常见的场景。为了优化网络带宽和数据存储等资源消耗,通常数据库管理员(dba)会调整oracle生成ogg日志策略,ogg日志中仅包含每行数据变更的字段,不包含未更新的字段。除了ogg场景,还有其他类似场景存在变更数据捕获(cdc)日志字段不全场景,统一归类为非全字段日志。由于apache hudi在数据更新阶段,使用整行覆盖更新,在以上数据场景直接将非全字段的ogg数据写入apachehudi,会存在字段数据丢失,进而造成数据湖更新无法进行的问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种基于人工智能的数据湖更新方法、装置、设备及介质,用于解决现有技术中将非全字段的ogg数据写入apache hudi,会存在字段数据丢失,进而造成数据湖更新无法进行的问题。
2、为达上述之一或部分或全部目的或是其他目的,本专利技术提出一种基于人工智能的数据湖更新方法,包括:获取目标数据,所述目标数据包括更新数据和更新数据针对的主键数据,所述目标数据用于数据湖的更新;
3、识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间;
4、在待更新数据湖内提取所述目标主键的历史数据,并获取与所述历史数据对应的历史事件的历史事件时间;
5、比较所述合并事件时间和所述历史事件时间,得到比较结果,并根据所述比较结果确定基准数据和补充数据;
6、根据所述基准数据和所述补充数据完成对所述待更新数据湖的更新。
7、另一方面,本申请提供了一种基于人工智能的数据湖更新装置,所述装置包括:
8、数据采集模块,用于获取目标数据,所述目标数据包括更新数据和更新数据针对的主键数据,所述目标数据用于数据湖的更新;
9、合并模块,用于识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间;
10、提取模块,用于在待更新数据湖内提取所述目标主键的历史数据,并获取与所述历史数据对应的历史事件的历史事件时间;
11、比较模块,用于比较所述合并事件时间和所述历史事件时间,得到比较结果,并根据所述比较结果确定基准数据和补充数据;
12、更新模块,用于根据所述基准数据和所述补充数据完成对所述待更新数据湖的更新。
13、另一方面,本申请提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行获取目标数据,所述目标数据包括更新数据和更新数据针对的主键数据,所述目标数据用于数据湖的更新;
14、识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间;
15、在待更新数据湖内提取所述目标主键的历史数据,并获取与所述历史数据对应的历史事件的历史事件时间;
16、比较所述合并事件时间和所述历史事件时间,得到比较结果,并根据所述比较结果确定基准数据和补充数据;
17、根据所述基准数据和所述补充数据完成对所述待更新数据湖的更新。
18、另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行获取目标数据,所述目标数据包括更新数据和更新数据针对的主键数据,所述目标数据用于数据湖的更新;
19、识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间;
20、在待更新数据湖内提取所述目标主键的历史数据,并获取与所述历史数据对应的历史事件的历史事件时间;
21、比较所述合并事件时间和所述历史事件时间,得到比较结果,并根据所述比较结果确定基准数据和补充数据;
22、根据所述基准数据和所述补充数据完成对所述待更新数据湖的更新。
23、实施本专利技术实施例,将具有如下有益效果:
24、通过获取目标数据,所述目标数据包括更新数据和更新数据针对的主键数据;识别所述更新数据内针对目标主键的目标更新数据的数据行数,若本文档来自技高网...
【技术保护点】
1.一种基于人工智能的数据湖更新方法,其特征在于,包括:
2.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,所述识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
3.如权利要求2所述的基于人工智能的数据湖更新方法,其特征在于,所述基于所述数据队列获得合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
4.如权利要求3所述的基于人工智能的数据湖更新方法,其特征在于,所述根据所述第一合并数据和所述备选目标更新数据获得合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
5.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,在所述识别所述更新数据内针对目标主键的目标更新数据的数据行数的步骤之后,还包括:
6.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,所述比较所述合并事件时间和所述历史事件时间,得到比较结果
7.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,所述识别所述更新数据内针对目标主键的目标更新数据的数据行数的步骤,包括:
8.一种基于人工智能的数据湖更新装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的基于人工智能的数据湖更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的基于人工智能的数据湖更新方法的步骤。
...【技术特征摘要】
1.一种基于人工智能的数据湖更新方法,其特征在于,包括:
2.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,所述识别所述更新数据内针对目标主键的目标更新数据的数据行数,若所述数据行数大于或等于预设行数,则将所述目标更新数据进行合并,得到合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
3.如权利要求2所述的基于人工智能的数据湖更新方法,其特征在于,所述基于所述数据队列获得合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
4.如权利要求3所述的基于人工智能的数据湖更新方法,其特征在于,所述根据所述第一合并数据和所述备选目标更新数据获得合并数据,进而获取与合并数据对应的合并事件的合并事件时间的步骤,包括:
5.如权利要求1所述的基于人工智能的数据湖更新方法,其特征在于,在所述识别所述更新数据内针对目标主键的目标更新数据的数据行数的步骤之后,还包括:
6.如...
【专利技术属性】
技术研发人员:孙昆仑,蒋英明,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。