异构计算平台及其模型数据处理方法、装置、设备、介质制造方法及图纸

技术编号：42789975 阅读：28 留言：0更新日期：2024-09-21 00:47

本发明专利技术公开了一种异构计算平台及其模型数据处理方法、装置、设备、介质，应用于异构计算领域。其中，方法包括将异构计算平台的多类算力节点设备适配至目标深度学习框架，使用同一目标深度学习框架共同对待训练网络模型进行模型训练。对各算力节点设备进行统一编码，并基于各算力节点设备对应的算力资源类型在分布式通信接口中确定对应的目标通讯接口；当基于各算力节点设备的编码信息，将待训练网络模型下发至各算力节点设备进行分布式训练过程中，各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输。本发明专利技术可以解决相关技术不支持多种算力节点设备进行异构计算的问题，能够实现不同种类的算力节点设备共同完成对神经网络模型的训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及异构计算领域，特别是涉及一种异构计算平台及其模型数据处理方法、装置、电子设备、非易失性存储介质。

技术介绍

1、随着人工智能技术的快速发展，人工智能网络模型的模型规模不断扩大，为了满足大规模神经网络模型训练所需算力资源，利用异构计算平台采用分布式训练模型实现对大规模神经网络模型的训练。

2、异构计算平台为由多种不同算力资源类型的算力节点设备构成的计算系统，相关技术在利用异构计算平台的各算力节点设备协同训练大规模神经网络模型时，对参与训练任务的算力设备要求是相同厂商生产，甚至要求是同一厂商的同一代算力设备。

3、鉴于此，实现不同种类的算力节点设备共同完成对神经网络模型的训练，是所属领域技术人员需要解决的技术问题。

4、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本专利技术提供了一种异构计算平台及其模型数据处理方法、装置、电子设备、非易失性存储介质，实现不同种类的算力节点设备共同完成对神经网络模型的训练，能够训练更大规模的神经网络模型。

2、为解决上述技术问题，本专利技术提供以下技术方案：

3、本专利技术一方面提供了一种异构计算平台的模型数据处理方法，包括：

4、将异构计算平台的多类算力节点设备适配至目标深度学习框架，以使所述异构计算平台的各算力节点设备使用所述目标深度学习框架共同对待训练网络模型进行模型训练；

5、对各算力节点设备进行统一编码，并基于各算力节点设备对应的算力资源类型在分布式通信接口中确定对应的目标通讯接口；

6、当基于各算力节点设备的编码信息，将所述待训练网络模型下发至各算力节点设备进行分布式训练过程中，各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输。

7、在第一种示例性的实施方式中，所述各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输，包括：

8、当运行至分布式通信接口，获取算力节点设备配置信息；

9、若当前进行数据传输的第一算力节点设备和第二算力节点设备的算力资源类型相同，则所述第一算力节点设备和所述第二算力节点设备基于相对应的分布式通讯库进行数据传输；

10、若当前进行数据传输的第一算力节点设备和第二算力节点设备的算力资源类型不相同，则所述第一算力节点设备和所述第二算力节点设备通过预先自定义方式实现数据传输。

11、在第二种示例性的实施方式中，所述第一算力节点设备和所述第二算力节点设备通过预先自定义方式实现数据传输，包括：

12、预先将所述分布式通信接口的输入数据拷贝至中央处理器；

13、所述第一算力节点设备和所述第二算力节点设备通过所述中央处理器进行数据传输。

14、在第三种示例性的实施方式中，所述分布式通信接口采用环状规约架构，所述各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输，包括：

15、获取执行所述待训练网络模型的训练任务的算力节点设备的总个数；

16、基于所述总个数将各算力节点设备对应的进程的数据块分为多个子数据块；

17、对执行所述待训练网络模型的训练任务的各进程，在当前迭代过程中，当前进程对接收到的相邻的上一个进程的数据块和上一迭代过程中的自身数据进行运行规约操作，得到规约后的目标数据块；

18、若所述当前进程相邻的下一个进程对应的算力节点设备与所述当前进程对应的算力节点设备对应的算力资源类型相同，获取所述当前进程对应的算力节点设备的芯片厂商提供目标通信库，所述当前进程将所述目标数据块通过所述目标通信库发送至所述下一个进程；

19、若所述当前进程相邻的下一个进程对应的算力节点设备与所述当前进程对应的算力节点设备对应的算力资源类型不相同，将所述分布式通信接口的输入数据拷贝至中央处理器，所述当前进程将所述目标数据块通过所述中央处理器发送至所述下一个进程；

20、其中，各子数据块与所述总个数相同，进程数与算力节点设备总数相同。

21、在第四种示例性的实施方式中，所述对各算力节点设备进行统一编码，包括：

22、对各算力节点设备按照算力资源类型进行分类，并从中选择目标算力资源类型作为编码基准；

23、基于目标算力资源类型所包含的算力节点设备的编号顺序，对其余算力资源类型的算力节点设备按照顺序依次进行编码。

24、在第五种示例性的实施方式中，所述当基于各算力节点设备的编码信息，将所述待训练网络模型下发至各算力节点设备进行分布式训练过程中，包括：

25、当基于所述目标深度学习框架构建待训练网络模型之后，获取执行所述待训练网络模型的训练任务的各算力节点设备；

26、基于各算力节点设备的编码信息，将所述待训练网络模型的训练数据发送至相应的算力节点设备，各算力节点设备调用预设分布式训练框架对所述待训练网络模型进行内存开辟和算子计算。

27、在第六种示例性的实施方式中，所述将异构计算平台的多类算力节点设备适配至目标深度学习框架，包括：

28、当异构计算平台的目标算力节点设备需要与目标深度学习框架进行适配时，基于所述目标算力节点设备的名称及运行时接口对所述目标深度学习框架进行修改，将所述目标深度学习框架作为前端，将所述目标算力节点设备的底层软件工具包作为后端，以通过前后端分离方式实现所述目标深度学习框架支持所述目标算力节点设备。

29、在第七种示例性的实施方式中，所述基于所述目标算力节点设备的名称及运行时接口对所述目标深度学习框架进行修改，包括：

30、基于所述目标算力节点设备的名称及运行时接口，对所述目标深度学习框架的转换器代码和python库的代码进行相应修改；

31、基于所述目标算力节点设备的名称及运行时接口，对所述待训练网络模型对应的分布式训练框架代码进行相应修改。

32、在第八种示例性的实施方式中，所述基于所述目标算力节点设备的名称及运行时接口对所述目标深度学习框架进行修改，将所述目标深度学习框架作为前端，将所述目标算力节点设备的底层软件工具包作为后端，包括：

33、在所述目标深度学习框架中添加作为所述目标算力节点设备的适配接口的虚拟设备；

34、在添加完所述虚拟设备的所述目标深度学习框架中注册对应的分布式通讯接口，并利用所述分布式通讯接口调用算力任务执行框架；所述算力任务执行框架用于对所述待训练网络模型进行模型训练；

35、利用所述算力任务执行框架对所述目标算力节点设备的底层软件栈进行抽象设计，得到抽象后的算力底层软件栈；

36、将所述算力底层软件栈配置为后端，并将作为前端的所述目标深度学习框架与作为所述后端的所述抽象后的算力底层软件栈进行分离。

37、在第九种示例性的实施方式中，所述将本文档来自技高网...

【技术保护点】

1.一种异构计算平台的模型数据处理方法，其特征在于，包括：

2.根据权利要求1所述的异构计算平台的模型数据处理方法，其特征在于，所述各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输，包括：

3.根据权利要求2所述的异构计算平台的模型数据处理方法，其特征在于，所述第一算力节点设备和所述第二算力节点设备通过预先自定义方式实现数据传输，包括：

4.根据权利要求1所述的异构计算平台的模型数据处理方法，其特征在于，所述分布式通信接口采用环状规约架构，所述各算力节点设备之间通过对应的目标通讯接口进行模型数据的传输，包括：

5.根据权利要求1所述的异构计算平台的模型数据处理方法，其特征在于，所述对各算力节点设备进行统一编码，包括：

6.根据权利要求1所述的异构计算平台的模型数据处理方法，其特征在于，所述当基于各算力节点设备的编码信息，将所述待训练网络模型下发至各算力节点设备进行分布式训练过程中，包括：

7.根据权利要求1至6任意一项所述的异构计算平台的模型数据处理方法，其特征在于，所述将异构计算平台的多类算力节点

8.根据权利要求7所述的异构计算平台的模型数据处理方法，其特征在于，所述基于所述目标算力节点设备的名称及运行时接口对所述目标深度学习框架进行修改，包括：

9.根据权利要求7所述的异构计算平台的模型数据处理方法，其特征在于，所述基于所述目标算力节点设备的名称及运行时接口对所述目标深度学习框架进行修改，将所述目标深度学习框架作为前端，将所述目标算力节点设备的底层软件工具包作为后端，包括：

10.根据权利要求9所述的异构计算平台的模型数据处理方法，其特征在于，所述将所述算力底层软件栈配置为后端，并将作为前端的所述目标深度学习框架与作为所述后端的所述抽象后的算力底层软件栈进行分离之后，还包括：

11.根据权利要求9所述的异构计算平台的模型数据处理方法，其特征在于，所述将所述算力底层软件栈配置为后端，并将作为前端的所述目标深度学习框架与作为所述后端的所述抽象后的算力底层软件栈进行分离之后，还包括：

12.一种异构计算平台的模型数据处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至11任一项所述异构计算平台的模型数据处理方法的步骤。

14.一种非易失性存储介质，其特征在于，所述非易失性存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述异构计算平台的模型数据处理方法的步骤。

15.一种异构计算平台，其特征在于，包括多类算力节点设备和处理器，所述处理器与各类算力节点设备均相连；

...

【技术特征摘要】

1.一种异构计算平台的模型数据处理方法，其特征在于，包括：

5.根据权利要求1所述的异构计算平台的模型数据处理方法，其特征在于，所述对各算力节点设备进行统一编码，包括：

7.根据权利要求1至6任意一项所述的异构计算平台的模型数据处理方法，其特征在于，所述将异构计算平台的多类算力节点设备适配至目标深度学习框架，包括：

9.根据权利要...

【专利技术属性】
技术研发人员：贾敬崧，李柏宏，吴韶华，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人