目标策略模型的训练方法、指令执行方法、装置及介质制造方法及图纸

技术编号：44251451 阅读：13 留言：0更新日期：2025-02-11 13:48

公开了一种目标策略模型的训练方法、指令执行方法、装置及介质。其中，目标策略模型的训练方法包括：确定待执行的指令序列；确定用于执行指令序列硬件的内存占用信息；基于指令序列、内存占用信息以及初始策略模型，确定指令序列对应的执行方式；对执行方式进行评估，得到评估信息；基于指令序列、内存占用信息、执行方式以及评估信息，对初始策略模型进行迭代训练；响应于迭代训练后的初始策略模型满足预设训练结束条件，将迭代训练后的初始策略模型作为目标策略模型。本公开的实施例可以提升指令序列的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及神经网络模型技术，尤其是一种目标策略模型的训练方法、指令执行方法、装置及介质。

技术介绍

1、神经网络模型广泛应用于计算机视觉、自然语言处理、语音识别、自动驾驶等众多领域。例如，利用神经网络模型，可以对车载摄像头采集的环境图像进行目标检测、目标跟踪、实例分割等。

2、如何保证神经网络模型的运行效率对于本领域技术而言是一个值得关注的问题。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种目标策略模型的训练方法、指令执行方法、装置及介质。

2、根据本公开实施例的一个方面，提供了一种目标策略模型的训练方法，包括：

3、确定待执行的指令序列；

4、确定用于执行所述指令序列硬件的内存占用信息；

5、基于所述指令序列、所述内存占用信息以及初始策略模型，确定所述指令序列对应的执行方式；

6、对所述执行方式进行评估，得到评估信息；

7、基于所述指令序列、所述内存占用信息、所述执行方式以及所述评估信息，对所述初始策略模型进行迭代训练；

8、响应于迭代训练后的所述初始策略模型满足预设训练结束条件，将迭代训练后的所述初始策略模型作为目标策略模型。

9、根据本公开实施例的另一个方面，提供了一种指令执行方法，包括：

10、确定待编译模型；

11、对所述待编译模型进行编译，得到所述待编译模型对应的目标指令序列；

12、确定用于执行所述目标指令序列硬件的当前内存占用信息；

13、基于所述目标指令序列、所述当前内存占用信息以及目标策略模型，确定所述目标指令序列对应的执行方式。

14、根据本公开实施例的再一个方面，提供了一种目标策略模型的训练装置，包括：

15、第一确定模块，用于确定待执行的指令序列；

16、第二确定模块，用于确定用于执行所述第一确定模块确定的所述指令序列硬件的内存占用信息；

17、第三确定模块，用于基于所述第一确定模块确定的所述指令序列、所述第二确定模块确定的所述内存占用信息以及初始策略模型，确定所述第一确定模块确定的所述指令序列对应的执行方式；

18、评估模块，用于对所述第三确定模块确定的所述执行方式进行评估，得到评估信息；

19、训练模块，用于基于所述第一确定模块确定的所述指令序列、所述第二确定模块确定的所述内存占用信息、所述第三确定模块确定的所述执行方式以及所述评估模块得到的所述评估信息，对所述初始策略模型进行迭代训练；

20、第四确定模块，用于响应于经所述训练模块迭代训练后的所述初始策略模型满足预设训练结束条件，将经所述训练模型迭代训练后的所述初始策略模型作为目标策略模型。

21、根据本公开实施例的又一个方面，提供了一种指令执行装置，包括：

22、第五确定模块，用于确定待编译模型；

23、编译模块，用于对所述第五确定模块确定的所述待编译模型进行编译，得到所述第五确定模块确定的所述待编译模型对应的目标指令序列；

24、第六确定模块，用于确定用于执行所述编译模块得到的所述目标指令序列硬件的当前内存占用信息；

25、第七确定模块，用于基于所述编译模块得到的所述目标指令序列、所述第六确定模块确定的所述当前内存占用信息以及目标策略模型，确定所述编译模块得到的所述目标指令序列对应的执行方式。

26、根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述目标策略模型的训练方法，或者用于执行上述指令执行方法。

27、根据本公开实施例的又一个方面，提供了一种电子设备，所述电子设备包括：

28、处理器；

29、用于存储所述处理器可执行指令的存储器；

30、所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述目标策略模型的训练方法，或者实现上述指令执行方法。

31、根据本公开实施例的又一个方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，执行上述目标策略模型的训练方法，或者执行上述指令执行方法。

32、基于本公开上述实施例提供的目标策略模型的训练方法、指令执行方法、装置、介质、电子设备及程序产品，在模型训练阶段，可以基于待执行的指令序列、用于执行指令序列硬件的内存占用信息，以及初始策略模型，确定指令序列对应的执行方式，指令序列、内存占用信息、执行方式，以及对执行方式进行评估得到的评估结果均可以用于初始策略模型的迭代训练。在迭代训练过程中，初始策略模型的模型参数可以被优化，初始策略模型可以学习如何辅助获得更优越、更合理、更有利于保证执行效率的执行方式。在模型推理阶段，基于训练阶段经迭代训练得到的目标策略模型，可以为给定的指令序列确定合适的执行方式，按照确定出的执行方式执行给定的指令序列，有利于提升模型推理时指令序列的执行效率。

本文档来自技高网...

【技术保护点】

1.一种目标策略模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述指令序列、所述内存占用信息、所述执行方式以及所述评估信息，对所述初始策略模型进行迭代训练，包括：

3.根据权利要求1所述的方法，其中，所述基于所述指令序列、所述内存占用信息以及初始策略模型，确定所述指令序列对应的执行方式，包括：

4.根据权利要求3所述的方法，其中，所述基于所述策略信息，确定所述指令序列对应的执行方式，包括：

5.根据权利要求3所述的方法，其中，所述基于所述策略信息，确定所述指令序列对应的执行方式，包括：

6.根据权利要求3所述的方法，其中，所述基于所述指令序列和所述内存占用信息，获得所述初始策略模型生成的策略信息，包括：

7.根据权利要求1-6中任一所述的方法，其中，所述对所述执行方式进行评估，得到评估信息，包括：

8.一种指令执行方法，包括：

9.一种目标策略模型的训练装置，包括：

10.一种指令执行装置，包括：

11.一种计算机可读存储介质，所述存储介质

12.一种电子设备，所述电子设备包括：

...

【技术特征摘要】

1.一种目标策略模型的训练方法，包括：

3.根据权利要求1所述的方法，其中，所述基于所述指令序列、所述内存占用信息以及初始策略模型，确定所述指令序列对应的执行方式，包括：

4.根据权利要求3所述的方法，其中，所述基于所述策略信息，确定所述指令序列对应的执行方式，包括：

5.根据权利要求3所述的方法，其中，所述基于所述策略信息，确定所述指令序列对应的执行方式，包括：<...

【专利技术属性】
技术研发人员：沈碧螺，邓博文，李建军，张骞，
申请(专利权)人：北京地平线信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人