一种基于深度强化学习的魔方还原方法、系统、设备及介质技术方案

技术编号：40082014 阅读：21 留言：0更新日期：2024-01-23 14:52

本申请实施例提供了一种基于深度强化学习的魔方还原方法、系统、设备及介质。魔方还原方法包括如下步骤：获取魔方图像，得到至少含有一张魔方图像的魔方图像训练集；将魔方图像训练集进行图像处理，得到目标魔方图像训练集；对目标魔方图像训练集的多个魔方图像进行特征提取得到颜色特征，根据颜色特征识别得到第一目标魔方颜色序列；将第一目标魔方颜色序列输入到初始还原步骤计算模型进行强化学习训练，得到目标还原步骤计算模型；获取待测试的魔方图像，根据待测试的魔方图像得到第二目标魔方颜色序列；将第二目标魔方颜色序列输入至目标还原步骤计算模型进行还原步骤计算操作，得到目标魔方还原步骤。能够实现系统自行决策确定解魔方的步骤。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及到一种基于深度强化学习的魔方还原方法、系统、设备及介质。

技术介绍

1、魔方与华容道、独立钻石棋并称为智力游戏界的三大不可思议，而魔方受欢迎的程度更是可以用奇迹二字来形容，随着魔方成为全世界流行的玩具，魔方拥有竞速、盲拧、单拧等多种玩法，风靡程度经久未衰，每年都会举办大小赛事，是最受欢迎的智力游戏之一。就目前而言，国内外的用于复原魔方的机器人基本都是依据简单的颜色传感器和机械式操作完成，图像采集和计算复原算法需要消耗大量的时间，而且复原算法需要进行公式计算得到，而不是系统的自主决策。

2、现有魔方复原方法的运算量较大，因此计算解法通常需要花费较长时间，同时解魔方步骤复杂，缺少灵活性以及对解魔方路径的创新性，在面临不同的魔方颜色分布状态下，很难保持解魔方的速度。目前有很多算法可以用来解决有划痕的立方体，但目标是让计算机从头开始学习如何解决。

技术实现思路

1、鉴于以上现有技术的缺点，本申请实施例的主要目的在于提出一种基于深度强化学习的魔方还原方法、系统、设备及介质，旨在通过强化学习训练提升解魔方系统的，能够在不同的魔方颜色分布状态下，系统自己做决策来确定解魔方的步骤。

2、第一方面，本申请实施例提出了一种基于深度强化学习的魔方还原方法，包括以下步骤：

3、获取魔方图像，得到至少含有一张魔方图像的魔方图像训练集；

4、将魔方图像训练集进行图像处理，得到目标魔方图像训练集；

5、对目标魔方图像训练

6、将第一目标魔方颜色序列输入到初始还原步骤计算模型进行强化学习训练，得到目标还原步骤计算模型；

7、获取待测试的魔方图像，根据待测试的魔方图像得到第二目标魔方颜色序列；

8、将第二目标魔方颜色序列输入至目标还原步骤计算模型进行还原步骤计算操作，得到目标魔方还原步骤。

9、在本专利技术一实施例中，初始还原计算模型包括：策略网络、价值网络、经验回放缓冲区，将第一目标魔方颜色序列输入到初始还原步骤计算模型进行强化学习训练，得到目标还原步骤计算模型的步骤，包括：

10、将第一目标魔方颜色序列的当前状态s输入策略网络的估计策略网络，得到动作a；

11、执行动作a，得到新状态s+；

12、将当前状态s、动作a、新状态s+存进经验回放缓冲区；

13、根据经验回放缓冲区，将当前状态s和动作a输入价值网络的估计价值网络，计算得到估计价值q1；

14、把新状态s+的状态赋给当前状态s；

15、从经验回放缓冲区获取数据样本，将数据样本的新状态s+输入策略网络的目标策略网络，得到新动作a+；

16、根据经验回放缓冲区，将新状态s+和新动作a+输入价值网络的目标价值网络，计算得到目标价值q2；

17、根据估计价值q1和目标价值q2进行损失计算，对价值网络的估计价值网络的参数进行更新；

18、根据估计价值q1进行策略计算，当估计价值q1取得最大值时，对策略网络的估计策略网络的参数进行更新；

19、根据策略网络的估计策略网络和价值网络的估计价值网络，对策略网络的目标策略网络和价值网络的目标价值网络的所有参数进行更新；

20、将新状态s+是否为终止状态作为训练结束条件；

21、若新状态s+是终止状态，根据策略网络和价值网络得到目标还原计算模型。

22、在本专利技术一实施例中，获取魔方图像训练集，包括：

23、获取摄像头的魔方图像帧作为魔方图像训练集；

24、和/或

25、获取图片数据库中的魔方图像作为魔方图像训练集。

26、在本专利技术一实施例中，获取图片数据库中的魔方图像作为魔方图像训练集，包括：

27、选取目标文件夹；

28、选取目标文件夹中的魔方图像作为魔方图像训练集。

29、在本专利技术一实施例中，将魔方图像训练集进行图像处理，得到目标魔方图像训练集的步骤，包括：

30、将魔方图像训练集的魔方图像进行灰度处理，得到对应的灰度图；

31、设置窗口，并将窗口的中心与灰度图的其中一个像素位置重合；

32、读取窗口下的像素的灰度值，得到灰度值集合；

33、将灰度值集合进行排序，得到排在中间的中位灰度值；

34、将中位灰度值赋给魔方图像的中心像素；

35、对魔方图像的多个像素进行处理，得到目标魔方图像；

36、将多个目标魔方图像组合，得到目标魔方图像训练集。

37、在本专利技术一实施例中，对目标魔方图像训练集进行特征提取得到颜色特征，根据颜色特征识别得到第一目标魔方颜色序列的步骤，包括：

38、将目标魔方图像训练集的魔方图像中的其中一个魔方色块的颜色作为待分类颜色；

39、计算待分类颜色到多个已知颜色的距离值，得到距离数据集；

40、将距离数据集的距离值按照数值大小进行排序，将在预设排名区间内的距离值作为目标距离值；

41、将目标距离值所对应的多个颜色类别中数量最多的颜色类别作为待分类颜色的颜色类别；

42、根据多个魔方色块的颜色类别得到目标魔方颜色序列。

43、在本专利技术一实施例中，将第二目标魔方颜色序列输入至目标还原步骤计算模型进行还原步骤计算操作，得到目标魔方还原步骤，包括：

44、将目标魔方还原步骤在终端进行动画演示。

45、第二方面，本申请提供了一种基于深度强化学习的魔方还原系统，其特征在于，系统包括：

46、训练样本获取模块，用于获取魔方图像训练集；

47、预处理模块，用于将魔方图像训练集进行图像预处理，得到目标魔方图像训练集；

48、特征分类模块，用于对目标魔方图像训练集进行特征提取得到颜色特征，根据颜色特征识别得到第一目标魔方颜色序列；

49、训练模块，用于将第一目标魔方颜色序列输入到初始还原步骤计算模型进行强化学习训练，得到目标还原步骤计算模型；

50、测试模块，用于获取待测试的魔方图像，对其进行预处理后，得到第二目标魔方颜色序列；

51、还原模块，用于将第二目标魔方颜色序列输入至目标还原步骤计算模型进行还原步骤计算操作，得到目标魔方还原步骤。

52、第三方面，本申请提供一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序或指令，处理器执行计算机程序或指令时实现如上第一方面的基于深度强化学习的魔方还原方法。

53、第四方面，本申请提供一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序或指令，计算机程序或指令被处理器执行时实现如上第一方面的基于深度强化学习的魔方还原方法。

5本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的魔方还原方法，其特征在于，所述魔方还原方法包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的魔方还原方法，其特征在于，所述初始还原计算模型包括：策略网络、价值网络、经验回放缓冲区；所述将所述第一目标魔方颜色序列输入到初始还原步骤计算模型进行强化学习训练，得到目标还原步骤计算模型的步骤，包括：

3.根据权利要求1所述的基于深度强化学习的魔方还原方法，其特征在于，所述获取魔方图像训练集，包括：

4.根据权利要求3所述的基于深度强化学习的魔方还原方法，其特征在于，所述获取图片数据库中的魔方图像作为魔方图像训练集，包括：

5.根据权利要求1所述的基于深度强化学习的魔方还原方法，其特征在于，所述将所述魔方图像训练集进行图像处理，得到目标魔方图像训练集的步骤，包括：

6.根据权利要求1所述的基于深度强化学习的魔方还原方法，其特征在于，所述对所述目标魔方图像训练集进行特征提取得到颜色特征，根据所述颜色特征识别得到第一目标魔方颜色序列的步骤，包括：

7.根据权利要求1所述的基于深度强化学习的

8.一种基于深度强化学习的魔方还原系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器的存储内容有计算机程序或指令，所述处理器执行所述计算机程序或指令时实现权利要求1至7中任一项所述的基于深度强化学习的魔方还原方法。

10.一计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至7中任一项所述的基于深度强化学习的魔方还原方法。

...

【技术特征摘要】

1.一种基于深度强化学习的魔方还原方法，其特征在于，所述魔方还原方法包括以下步骤：

3.根据权利要求1所述的基于深度强化学习的魔方还原方法，其特征在于，所述获取魔方图像训练集，包括：

4.根据权利要求3所述的基于深度强化学习的魔方还原方法，其特征在于，所述获取图片数据库中的魔方图像作为魔方图像训练集，包括：

6.根据权利要求1所述的基于深度强化学习的魔方还原...

【专利技术属性】
技术研发人员：孔凡国，仇展明，王鑫，袁功兴，陈靖轩，
申请(专利权)人：五邑大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人