模型训练程序镜像的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:27876621 阅读:14 留言:0更新日期:2021-03-31 00:53
本公开实施例涉及一种模型训练程序镜像的生成方法、装置、设备及存储介质。本公开至少一个实施例中,获取模型训练程序文件、数据集和模型训练程序的配置信息,基于模型训练程序文件和数据集生成不同的层文件,并基于配置信息生成配置文件,进而可生成用于描述这些层文件和配置文件的描述文件,从而将生成层文件、配置文件和描述文件生成为模型训练程序镜像,实现了模型训练程序的统一打包格式规范,便于模型训练程序在各个机器学习平台进行迁移、训练、使用等。

【技术实现步骤摘要】
模型训练程序镜像的生成方法、装置、设备及存储介质
本公开实施例涉及机器学习
,具体涉及一种模型训练程序镜像的生成方法、装置、设备及存储介质。
技术介绍
机器学习领域对模型有统一的格式规范:开放神经网络交换(OpenNeuralNetworkExchange,ONNX),但模型训练程序缺乏统一的格式规范,例如机器学习领域有多个机器学习平台,每个平台有各自的模型训练程序的定义规范。因为缺乏统一的格式规范,模型训练程序很难迁移到不同的机器学习平台上。同时缺乏有效的模型训练程序打包和分发机制,从而也不能将模型训练程序共享出来供其他开发者使用。另外,各个模型训练程序缺乏有效的方式同时解决注明标签、使用说明文档、程序依赖、存储分发共享等问题。上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种模型训练程序镜像的生成方法、装置、设备及存储介质。第一方面,本公开实施例提出一种模型训练程序镜像的生成方法,包括:获取模型训练程序文件、数据集和模型训练程序的配置信息;基于所述模型训练程序文件生成一个或多个第一层文件;基于所述数据集生成一个或多个第二层文件;基于所述模型训练程序的配置信息生成配置文件;生成描述文件,所述描述文件中包括:所述配置文件的描述信息、所述一个或多个第一层文件的描述信息和所述一个或多个第二层文件的描述信息;<br>生成模型训练程序镜像,所述模型训练程序镜像中包括所述描述文件、所述配置文件、所述一个或多个第一层文件和所述一个或多个第二层文件。在一些实施例中,所述模型训练程序文件为模型训练程序的可执行文件;所述基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述可执行文件生成一个第一层文件。在一些实施例中,所述模型训练程序文件为模型训练程序的源代码文件和依赖文件;其中,所述依赖文件包括:所述模型训练程序在训练过程中所依赖的一个或多个文件;所述基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述源代码文件生成一个第一层文件;基于所述依赖文件生成一个或多个第一层文件。在一些实施例中,所述数据集中包括测试数据和/或训练数据;所述基于所述数据集生成一个或多个第二层文件包括:针对所述测试数据生成一个或多个第二层文件;针对所述训练数据生成一个或多个第二层文件。在一些实施例中,所述模型训练程序的配置信息包括:场景、参数定义和调用方法;所述配置文件包括多个字段;所述基于所述模型训练程序的配置信息生成配置文件包括:将所述场景写入所述多个字段中的一个字段;将所述参数定义和所述调用方法写入所述多个字段中的相同字段或不同字段。在一些实施例中,所述模型训练程序的配置信息还包括:模型训练程序所属项目的信息和所属项目在源代码管理仓库中的地址;所述基于所述模型训练程序的配置信息生成配置文件还包括:将所述模型训练程序所属项目的信息和所属项目在源代码管理仓库中的地址写入所述多个字段中的相同字段或不同字段。在一些实施例中,所述模型训练程序的配置信息还包括:模型训练程序使用说明的文本信息;所述基于所述模型训练程序的配置信息生成配置文件还包括:将所述文本信息写入所述多个字段中的一个字段。在一些实施例中,所述方法还包括:获取模型训练程序使用说明的文件;基于所述模型训练程序使用说明的文件生成一个或多个第三层文件;相应地,所述描述文件中还包括:所述一个或多个第三层文件的描述信息;所述模型训练程序镜像中还包括所述一个或多个第三层文件。在一些实施例中,所述生成模型训练程序镜像包括:基于容器镜像标准,将所述描述文件、所述配置文件、所述一个或多个第一层文件和所述一个或多个第二层文件打包为模型训练程序镜像。在一些实施例中,所述模型训练程序的配置信息定义在所述模型训练程序文件中;相应地,获取所述模型训练程序的配置信息包括:解析所述模型训练程序文件,得到所述模型训练程序的配置信息。第二方面,本公开实施例还提出一种模型训练程序镜像的生成装置,包括:获取单元,用于获取模型训练程序文件、数据集和模型训练程序的配置信息;文件生成单元,用于基于所述模型训练程序文件生成一个或多个第一层文件;基于所述数据集生成一个或多个第二层文件;基于所述模型训练程序的配置信息生成配置文件;生成描述文件,所述描述文件中包括:所述配置文件的描述信息、所述一个或多个第一层文件的描述信息和所述一个或多个第二层文件的描述信息;镜像生成单元,用于生成模型训练程序镜像,所述模型训练程序镜像中包括所述描述文件、所述配置文件、所述一个或多个第一层文件和所述一个或多个第二层文件。在一些实施例中,所述模型训练程序文件为模型训练程序的可执行文件;所述文件生成单元基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述可执行文件生成一个第一层文件。在一些实施例中,所述模型训练程序文件为模型训练程序的源代码文件和依赖文件;其中,所述依赖文件包括:所述模型训练程序在训练过程中所依赖的一个或多个文件;所述文件生成单元基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述源代码文件生成一个第一层文件;基于所述依赖文件生成一个或多个第一层文件。在一些实施例中,所述数据集中包括测试数据和/或训练数据;所述文件生成单元基于所述数据集生成一个或多个第二层文件包括:针对所述测试数据生成一个或多个第二层文件;针对所述训练数据生成一个或多个第二层文件。在一些实施例中,所述模型训练程序的配置信息包括:场景、参数定义和调用装置;所述配置文件包括多个字段;所述文件生成单元基于所述模型训练程序的配置信息生成配置文件包括:将所述场景写入所述多个字段中的一个字段;将所述参数定义和所述调用装置写入所述多个字段中的相同字段或不同字段。在一些实施例中,所述模型训练程序的配置信息还包括:模型训练程序所属项目的信息和所属项目在源代码管理仓库中的地址;所述文件生成单元基于所述模型训练程序的配置信息生成配置文件还包括:将所述模型训练程序所属项目的信息和所属项目在源代码管理仓库中的地址写入所述多个字段中的相同字段或不同字段。在一些实施例中,所述模型训练程序的配置信息还包括:模型训练程序使用说明的文本信息;所述文件生成单元基于所述模型训练程序的配置信息生成配置文件还包括:将所述文本信息写入所述多个字段中的一个字段。在一些实施例中,所述获取单元还用于获取模型训练程序使用说明的文件;所述文件生成单元还用于基于所述模型训练程序使用说明的文件生成一个或多个第三层文件;相应地,所述描述文件中还包括:所述一个或多个第三层文件的描述信息;所述模本文档来自技高网...

【技术保护点】
1.一种模型训练程序镜像的生成方法,包括:/n获取模型训练程序文件、数据集和模型训练程序的配置信息;/n基于所述模型训练程序文件生成一个或多个第一层文件;/n基于所述数据集生成一个或多个第二层文件;/n基于所述模型训练程序的配置信息生成配置文件;/n生成描述文件,所述描述文件中包括:所述配置文件的描述信息、所述一个或多个第一层文件的描述信息和所述一个或多个第二层文件的描述信息;/n生成模型训练程序镜像,所述模型训练程序镜像中包括所述描述文件、所述配置文件、所述一个或多个第一层文件和所述一个或多个第二层文件。/n

【技术特征摘要】
1.一种模型训练程序镜像的生成方法,包括:
获取模型训练程序文件、数据集和模型训练程序的配置信息;
基于所述模型训练程序文件生成一个或多个第一层文件;
基于所述数据集生成一个或多个第二层文件;
基于所述模型训练程序的配置信息生成配置文件;
生成描述文件,所述描述文件中包括:所述配置文件的描述信息、所述一个或多个第一层文件的描述信息和所述一个或多个第二层文件的描述信息;
生成模型训练程序镜像,所述模型训练程序镜像中包括所述描述文件、所述配置文件、所述一个或多个第一层文件和所述一个或多个第二层文件。


2.根据权利要求1所述的方法,其中,所述模型训练程序文件为模型训练程序的可执行文件;
所述基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述可执行文件生成一个第一层文件。


3.根据权利要求1所述的方法,其中,所述模型训练程序文件为模型训练程序的源代码文件和依赖文件;其中,所述依赖文件包括:所述模型训练程序在训练过程中所依赖的一个或多个文件;
所述基于所述模型训练程序文件生成一个或多个第一层文件包括:基于所述源代码文件生成一个第一层文件;基于所述依赖文件生成一个或多个第一层文件。


4.根据权利要求1所述的方法,其中,所述数据集中包括测试数据和/或训练数据;
所述基于所述数据集生成一个或多个第二层文件包括:针对所述测试数据生成一个或多个第二层文件;针对所述训练数据生成一个或多个第二层文件。


5.根据权利要求1所述的方法,其中,所述模型训练程序的配置信息包括:场景、参数定义和调用方法;所述配置文件包括多个字段;
所述基于所述模型训练程序的配置信息生成配置文件包括:
将所述场景写入所述多个字段中的一...

【专利技术属性】
技术研发人员:赵庆郭朕张宇罗伟锋
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1