一种强化学习代码编译方法、装置、设备及存储介质制造方法及图纸

技术编号：41151871 阅读：12 留言：0更新日期：2024-04-30 18:17

本申请实施例公开了一种强化学习代码编译方法、装置、设备及存储介质，涉及强化学习技术领域。方法包括：获取需要进行编译的强化学习代码；基于所述强化学习代码，通过单元测试生成器生成与所述强化学习代码对应的单元测试；将所述强化学习代码和所述单元测试输入编译器，得到编译结果；根据所述编译结果利用奖励函数获取对应的奖励数值；重复执行上述步骤，直至每一次重复得到的奖励数值的累加值达到预设值。通过上述方法能够实现对强化学习代码的自动化测试和验证，将测试和验证嵌入到强化学习代码的开发过程中，从而能够降低强化学习代码的测试和验证的耗时量并且提高测试和验证的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及强化学习，特别是涉及一种强化学习代码编译方法、装置、设备及存储介质。

技术介绍

1、目前，强化学习在各领域得到广泛应用，例如，自动驾驶、游戏开发、自动化控制等领域。而强化学习算法的成功应用需要开发者编写复杂的代码，并在不断地实验和改进中进行测试和验证。然而，由于强化学习系统的不确定性和复杂性，对于其代码的测试和验证变得非常具有挑战性。目前，开发者通常只能使用手动测试和仿真环境来验证他们的强化学习代码，这会需要消耗大量时间，并且由于手动测试容易出错的原因，这样的测试方式的稳定性也不佳。

2、因此，如何降低强化学习代码的测试和验证的耗时量并且提高测试和验证的稳定性，成为本领域亟需解决的技术问题。

技术实现思路

1、基于上述问题，本申请提供了一种强化学习代码编译方法、装置、设备及存储介质，能够降低强化学习代码的测试和验证的耗时量并且提高测试和验证的稳定性。

2、本申请实施例公开了如下技术方案：

3、第一方面，本申请提供了一种强化学习代码编译方法，所述方法包括：

4、获取需要进行编译的强化学习代码；

5、基于所述强化学习代码，通过单元测试生成器生成与所述强化学习代码对应的单元测试；

6、将所述强化学习代码和所述单元测试输入编译器，得到编译结果；

7、根据所述编译结果利用奖励函数获取对应的奖励数值；

8、重复执行上述步骤，直至每一次重复得到的奖励数值的累加值达到预设值。

9、

10、从环境中选择一道编程题目；

11、根据所述编程题目利用代码生成器生成所述编程题目对应的强化学习代码；

12、所述重复执行上述步骤，包括：

13、重复从所述根据所述编程题目利用代码生成器生成所述编程题目对应的强化学习代码，到所述根据所述编译结果利用奖励函数获取对应的奖励数值的步骤。

14、可选的，所述从环境中选择一道编程题目，包括：

15、基于强化学习目标，在环境中构建编程题目库；

16、在所述编程题目库中选择一道编程题目。

17、可选的，所述方法还包括：

18、在重复次数达到预设值时，完成对强化学习代码的编译。

19、第二方面，本申请实施例提供了一种强化学习代码编译装置，所述装置包括：

20、代码获取模块，用于获取需要进行编译的强化学习代码；

21、单元测试生成模块，用于基于所述强化学习代码，通过单元测试生成器生成与所述强化学习代码对应的单元测试；

22、编译结果获取模块，用于将所述强化学习代码和所述单元测试输入编译器，得到编译结果；

23、奖励数值获取模块，用于根据所述编译结果利用奖励函数获取对应的奖励数值；

24、循环模块，用于重复上述代码获取模块、单元测试生成模块、编译结果获取模块以及奖励数值获取模块所执行的步骤，直至每一次重复得到的奖励数值的累加值达到预设值。

25、可选的，所述代码获取模块，包括：

26、题目选择子模块，用于从环境中选择一道编程题目；

27、代码生成子模块，用于根据所述编程题目利用代码生成器生成所述编程题目对应的强化学习代码。

28、可选的，所述题目选择子模块，包括：

29、题目库构建单元，用于基于强化学习目标，在环境中构建编程题目库；

30、题目选择单元，用于在所述编程题目库中选择一道编程题目。

31、可选的，所述装置还包括：

32、重复次数限制模块，用于在重复次数达到预设值时，完成对强化学习代码的编译。

33、第三方面，本申请实施例提供了一种电子设备，包括：

34、存储器，用于存储计算机程序；

35、处理器，用于执行所述计算机程序时实现上述强化学习代码编译方法的步骤。

36、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述强化学习代码编译方法的步骤。

37、相较于现有技术，本申请具有以下有益效果：

38、本申请实施例提供的一种强化学习代码编译方法，包括：获取需要进行编译的强化学习代码；基于所述强化学习代码，通过单元测试生成器生成与所述强化学习代码对应的单元测试；将所述强化学习代码和所述单元测试输入编译器，得到编译结果；根据所述编译结果利用奖励函数获取对应的奖励数值；重复执行上述步骤，直至每一次重复得到的奖励数值的累加值达到预设值。通过上述方法能够实现对强化学习代码的自动化测试和验证，将测试和验证嵌入到强化学习代码的开发过程中，从而能够降低强化学习代码的测试和验证的耗时量并且提高测试和验证的稳定性。

39、本申请实施例提供的一种强化学习代码编译装置、一种电子设备和一种计算机可读存储介质由于能够实现上述强化学习代码编译方法的步骤，从而同样具备上述有益效果。

本文档来自技高网...

【技术保护点】

1.一种强化学习代码编译方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取需要进行编译的强化学习代码，包括：

3.根据权利要求2所述的方法，其特征在于，所述从环境中选择一道编程题目，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种强化学习代码编译装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述代码获取模块，包括：

7.根据权利要求6所述的装置，其特征在于，所述题目选择子模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述强化学习代码编译方法的步骤。

【技术特征摘要】

1.一种强化学习代码编译方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取需要进行编译的强化学习代码，包括：

3.根据权利要求2所述的方法，其特征在于，所述从环境中选择一道编程题目，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种强化学习代码编译装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装...

【专利技术属性】
技术研发人员：赵芷若，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人