模型训练方法、数据处理方法、系统及电子设备技术方案

技术编号:37491138 阅读:16 留言:0更新日期:2023-05-07 09:30
本申请提供了一种模型训练方法、系统、电子设备及存储介质,方法包括:从存储的训练集中获取用于训练目标模型的目标离线数据和目标实时数据;并根据目标离线数据以及目标实时数据,对待训练模型进行训练,得到训练后模型,之后在对待训练模型进行训练的过程中,若检测到训练集中存在更新了的、用于训练目标模型的第一实时数据,将第一实时数据确定为目标实时数据,最后响应于检测到训练集中存在更新了的、用于训练目标模型的第二实时数据,基于第二实时数据对训练后模型进行更新训练,得到更新训练后模型。该技术方案在检测到实时数据的更新时,不断对训练后模型进行更新训练,以增强模型训练的实时性和可靠性。强模型训练的实时性和可靠性。强模型训练的实时性和可靠性。

【技术实现步骤摘要】
模型训练方法、数据处理方法、系统及电子设备


[0001]本申请涉及计算机
,尤其涉及一种模型训练方法、数据处理方法、系统、电子设备及计算机可读存储介质。

技术介绍

[0002]数据科学的核心围绕着大数据和人工智能技术,随着人工智能技术的发展,针对各种各样的业务场景都需要建立机器学习模型,而不同机器学习模型的建立,常常伴随着大数据提供的数据支持。
[0003]在现有技术中,常见的机器学习模型的建立都是以大数据中的离线数据为基础的,而针对实时产生的数据,则需要专门的人员进行获取,并经过处理才可以能为机器学习模型提供帮助。
[0004]在上述技术方案中,在对机器学习模型进行构建过程中,存在对实时数据运用效率较低的情况,使得生成的机器学习模型可靠性和实时性较差。

技术实现思路

[0005]有鉴于此,本申请提供了一种模型训练方法、数据处理方法、系统、电子设备及存储介质,用以提高模型训练的可靠性和实时性。
[0006]本申请实施例第一方面提供了一种模型训练方法,该方法包括:
[0007]从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,所述训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的;
[0008]根据所述目标离线数据以及所述目标实时数据,对待训练模型进行训练,得到训练后模型;
[0009]在所述对待训练模型进行训练的过程中,若检测到所述训练集中存在更新了的、用于训练所述目标模型的第一实时数据,将所述第一实时数据确定为所述目标实时数据;
[0010]响应于检测到所述训练集中存在更新了的、用于训练所述目标模型的第二实时数据,基于所述第二实时数据对所述训练后模型进行更新训练,得到更新训练后模型。
[0011]本申请实施例第二方面提供了一种模型训练系统,所述系统包括:数据能力模块和数据训练模块;
[0012]所述数据能力模块用于从存储的用于训练所述目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,所述训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的;
[0013]所述数据训练模块用于根据所述目标离线数据以及所述目标实时数据,对待训练模型进行训练,得到训练后模型;
[0014]所述数据能力模块还用于在所述对待训练模型进行训练的过程中,若检测到所述训练集中存在更新了的、用于训练所述目标模型的第一实时数据,将所述第一实时数据确
定为所述目标实时数据;
[0015]所述数据训练模块还用于响应于检测到所述训练集中存在更新了的、用于训练所述目标模型的第二实时数据,基于所述第二实时数据对所述训练后模型进行更新训练,得到更新训练后模型。
[0016]本申请实施例第三方面提供了一种数据处理方法,所述方法包括:
[0017]获取待处理数据以及用于处理所述待处理数据的处理模型,所述处理模型是按照第一方面中任一项所述的模型训练方法进行训练得到的;
[0018]使用所述处理模型对所述待处理数据进行处理,得到处理结果。
[0019]本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述第一方面中任一项所述的模型训练方法。
[0020]本申请实施例第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如如上述第一方面中任一项所述的模型训练方法。
[0021]本申请实施例所提供的技术方案,从存储的训练集中获取用于训练目标模型的目标离线数据和目标实时数据;训练集中存储有用于进行模型训练的离线数据和实时数据,训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的,并根据目标离线数据以及目标实时数据,对待训练模型进行训练,得到训练后模型,之后在对待训练模型进行训练的过程中,若检测到训练集中存在更新了的、用于训练目标模型的第一实时数据,将第一实时数据确定为目标实时数据,最后响应于检测到训练集中存在更新了的、用于训练目标模型的第二实时数据,基于第二实时数据对训练后模型进行更新训练,得到更新训练后模型。该技术方案在检测到实时数据的更新,不断对训练后模型进行更新训练,以增强模型训练的实时性和可靠性。
附图说明
[0022]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的模型训练方法实施例一的流程示意图;
[0024]图2为本申请实施例提供的模型训练系统示意图;
[0025]图3为本申请实施例提供的模型训练方法实施例二的流程示意图;
[0026]图4为现有技术提供的数据同步示意图;
[0027]图5为本申请实施例提供的数据同步示意图;
[0028]图6为现有技术实时数仓处理流程示意图;
[0029]图7为现有技术离线数仓处理流程示意图;
[0030]图8为本申请实施例提供的流批一体数仓处理流程示意图;
[0031]图9为本申请实施例提供的数据能力模块的原理示意图;
[0032]图10为本申请实施例提供的数据处理方法的流程示意图;
[0033]图11为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0034]为了使本领域的技术人员能够更好的理解本申请的技术方案,下面结合本申请实施例中的附图,对本申请进行清楚、完整地描述。但本申请能够以很多不同于上述描述的其他方式进行实施,因此,基于本申请提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本申请保护的范围。
[0035]需要说明的是,本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本申请的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0036]首先,对本申请实施例涉及的技术背景和专业词汇进行介绍和说明。
[0037]数据科学(英文:DataScience)是近年来兴起的一门学科,其主要研究如何从海量的数据中发现有规律的模式,并为决策提供洞见。数据科学有很多子类,例如机器学习、深度学习、机器/深度学习框架、大数据框架、大数据开发、数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,所述训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的;根据所述目标离线数据以及所述目标实时数据,对待训练模型进行训练,得到训练后模型;在所述对待训练模型进行训练的过程中,若检测到所述训练集中存在更新了的、用于训练所述目标模型的第一实时数据,将所述第一实时数据确定为所述目标实时数据;响应于检测到所述训练集中存在更新了的、用于训练所述目标模型的第二实时数据,基于所述第二实时数据对所述训练后模型进行更新训练,得到更新训练后模型。2.根据权利要求1所述的方法,其特征在于,所述方法应用于模型训练集群,所述模型训练集群包括多个节点设备,所述多个节点设备包括资源调度设备;在所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:资源调度设备确定用于进行目标模型训练所需的第一计算机资源,并根据所述第一计算机资源、所述多个节点设备的资源使用情况从所述多个节点设备中选择至少一个用于进行目标模型训练的训练设备、以及确定所述训练设备中用于进行目标模型训练的第一资源占用信息,以使各所述训练设备使用与所述第一资源占用信息相一致的资源执行各模型的训练。3.根据权利要求2所述的方法,其特征在于,在所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:所述资源调度设备在检测到存在待存储实时数据时,确定存储所述待存储实时数据所需第二计算机资源,并根据所述第二计算机资源、所述多个节点设备的资源使用情况从所述多个节点设备中选择至少一个用于存储所述待存储实时数据的设备作为数据产生设备、以及确定所述数据产生设备中用于存储所述待存储实时数据的第二资源占用信息;所述数据产生设备使用与所述第二资源占用信息相一致的资源将所述待存储数实时据存入本地;所述训练设备实时获取所述数据产生设备上产生的数据,并根据实时获取的数据存储用于训练目标模型的训练集。4.根据权利要求3所述的方法,其特征在于,在所述资源调度设备确定用于进行目标模型训练所需的第一计算机资源之前,所述方法还包括:所述模型训练集群中的第一设备将用于训练目标模型的训练程序打包为容器镜像,所述容器镜像包含所述训练程序以及运行所述训练程序所需的运行资源;所述资源调度设备确定用于进行目标模型训练所需的第一计算机资源,包括:所述资源调度设备根据所述运行资源确定所述容器镜像运行时所需的第一计算资源。5.根据权利要求1所述的方法,其特征在于,在所述从存储的用于训练所述目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:确定用于生成目标训练数据的目标数据产生设备,所述目标训练数据为用于训练所述
目标模型的训练数据;根据所述目标数据产生设备所产生的数据确定并存储用于训练所述目标模型的训练集;响应于检测到所述目标数据产生设备中的数据发生变更,根据所述目标数据产生设备中发生变更的数据实时更新所述训练集中的数据。6.根据权利要求5所述的方法,其特征在于,所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,包括:响应于对目标模型的训练请求,从存储的用于训练所述目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据;所述训练请求中携带有用于表示所述目标模型的目标标识;各数据产生设备对应有用于表示所产生的数据用于训练的模型的标识;所述确定用于生成目标训练数据的目标数据产生设备,包括:从各数据产生设备中查找与所述目标标识一致的目标数据产生设备。7.根据权利要求5所述的方法,其特征在于,每一所述数据产生设备对应有数据记录信息,所述数据记录信息用于实时记录所述数据产生设备所产生的数据对应的存储位...

【专利技术属性】
技术研发人员:尚书於圣楠吴剑飞刘柏范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1