【技术实现步骤摘要】
模型训练方法、数据处理方法、系统及电子设备
[0001]本申请涉及计算机
,尤其涉及一种模型训练方法、数据处理方法、系统、电子设备及计算机可读存储介质。
技术介绍
[0002]数据科学的核心围绕着大数据和人工智能技术,随着人工智能技术的发展,针对各种各样的业务场景都需要建立机器学习模型,而不同机器学习模型的建立,常常伴随着大数据提供的数据支持。
[0003]在现有技术中,常见的机器学习模型的建立都是以大数据中的离线数据为基础的,而针对实时产生的数据,则需要专门的人员进行获取,并经过处理才可以能为机器学习模型提供帮助。
[0004]在上述技术方案中,在对机器学习模型进行构建过程中,存在对实时数据运用效率较低的情况,使得生成的机器学习模型可靠性和实时性较差。
技术实现思路
[0005]有鉴于此,本申请提供了一种模型训练方法、数据处理方法、系统、电子设备及存储介质,用以提高模型训练的可靠性和实时性。
[0006]本申请实施例第一方面提供了一种模型训练方法,该方法包括:
[0007]从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,所述训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的;
[0008]根据所述目标离线数据以及所述目标实时数据,对待训练模型进行训练,得到训练后模型;
[0009]在所述对待训练模型进行训练的过程中,若检测到所述训练集中存在更新了的、用于训练所述目标模型的第一实时数据,将所述第一 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,所述训练集中的实时数据是通过实时获取数据产生设备上产生的数据得到的;根据所述目标离线数据以及所述目标实时数据,对待训练模型进行训练,得到训练后模型;在所述对待训练模型进行训练的过程中,若检测到所述训练集中存在更新了的、用于训练所述目标模型的第一实时数据,将所述第一实时数据确定为所述目标实时数据;响应于检测到所述训练集中存在更新了的、用于训练所述目标模型的第二实时数据,基于所述第二实时数据对所述训练后模型进行更新训练,得到更新训练后模型。2.根据权利要求1所述的方法,其特征在于,所述方法应用于模型训练集群,所述模型训练集群包括多个节点设备,所述多个节点设备包括资源调度设备;在所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:资源调度设备确定用于进行目标模型训练所需的第一计算机资源,并根据所述第一计算机资源、所述多个节点设备的资源使用情况从所述多个节点设备中选择至少一个用于进行目标模型训练的训练设备、以及确定所述训练设备中用于进行目标模型训练的第一资源占用信息,以使各所述训练设备使用与所述第一资源占用信息相一致的资源执行各模型的训练。3.根据权利要求2所述的方法,其特征在于,在所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:所述资源调度设备在检测到存在待存储实时数据时,确定存储所述待存储实时数据所需第二计算机资源,并根据所述第二计算机资源、所述多个节点设备的资源使用情况从所述多个节点设备中选择至少一个用于存储所述待存储实时数据的设备作为数据产生设备、以及确定所述数据产生设备中用于存储所述待存储实时数据的第二资源占用信息;所述数据产生设备使用与所述第二资源占用信息相一致的资源将所述待存储数实时据存入本地;所述训练设备实时获取所述数据产生设备上产生的数据,并根据实时获取的数据存储用于训练目标模型的训练集。4.根据权利要求3所述的方法,其特征在于,在所述资源调度设备确定用于进行目标模型训练所需的第一计算机资源之前,所述方法还包括:所述模型训练集群中的第一设备将用于训练目标模型的训练程序打包为容器镜像,所述容器镜像包含所述训练程序以及运行所述训练程序所需的运行资源;所述资源调度设备确定用于进行目标模型训练所需的第一计算机资源,包括:所述资源调度设备根据所述运行资源确定所述容器镜像运行时所需的第一计算资源。5.根据权利要求1所述的方法,其特征在于,在所述从存储的用于训练所述目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据之前,所述方法还包括:确定用于生成目标训练数据的目标数据产生设备,所述目标训练数据为用于训练所述
目标模型的训练数据;根据所述目标数据产生设备所产生的数据确定并存储用于训练所述目标模型的训练集;响应于检测到所述目标数据产生设备中的数据发生变更,根据所述目标数据产生设备中发生变更的数据实时更新所述训练集中的数据。6.根据权利要求5所述的方法,其特征在于,所述从存储的用于训练目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据,包括:响应于对目标模型的训练请求,从存储的用于训练所述目标模型的训练集中获取用于训练所述目标模型的目标离线数据和目标实时数据;所述训练请求中携带有用于表示所述目标模型的目标标识;各数据产生设备对应有用于表示所产生的数据用于训练的模型的标识;所述确定用于生成目标训练数据的目标数据产生设备,包括:从各数据产生设备中查找与所述目标标识一致的目标数据产生设备。7.根据权利要求5所述的方法,其特征在于,每一所述数据产生设备对应有数据记录信息,所述数据记录信息用于实时记录所述数据产生设备所产生的数据对应的存储位...
【专利技术属性】
技术研发人员:尚书,於圣楠,吴剑飞,刘柏,范长杰,胡志鹏,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。