基于深度强化学习的机械臂精准控制充电盖开合方法技术

技术编号：43180831 阅读：24 留言：0更新日期：2024-11-01 20:07

本发明专利技术属于机械臂控制技术领域，涉及一种基于深度强化学习的机械臂精准控制充电盖开合方法，包括机械臂精准控制充电盖开合模型的构建方法和模型训练方法。机械臂精准控制充电盖开合模型的构建方法考虑按照机械臂的固有形态分节构建多个神经网络，且构建机械臂各节的序列关系，避免了导致深度强化学习的动作空间过大，难以收敛，影响机械臂控制的时效性的问题；基于控制序列迭代优化的机械臂精准控制充电盖开合模型训练方法，考虑根据移动路径长度、障碍碰撞情况、各关节摩擦、位置误差等反馈情况计算损失函数，基于损失函数对各神经网络进行迭代更新，从而为机械臂各节提供精准的移动轨迹控制策略。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机械臂控制，具体涉及一种基于深度强化学习的机械臂精准控制充电盖开合方法。

技术介绍

1、随着电动汽车领域的快速发展，电动汽车的市场需求和用户保有量呈现出迅猛的上升趋势。然而，尽管电动汽车市场呈现出快速增长的趋势，与之配套的充电基础设施建设却未能同步发展，导致充电设施的供应异常紧张。这种供需不匹配现象，在一定程度上阻碍了电动汽车的普及和应用。此外，尽管自动驾驶技术已在多个领域取得突破性进展，但电动汽车的充电过程却依旧主要依赖手动操作。目前，尚未形成一套成熟的自动化充电解决方案，无法精准控制充电盖开合，这不仅增加了电动汽车用户的操作复杂性，也限制了电动汽车使用的便捷性和效率。

2、利用深度强化学习实现机械臂精准控制充电盖开合是电动汽车自动化充电解决方案的一项关键技术，通过深度强化学习探索机械臂的移动路径，实现机械臂自动精准地控制电动汽车充电盖开合，能够提高电动汽车充电效率，减少人力成本，以满足电动汽车快速、高效、自动化的充电需求。

3、cn115179280a提出了一种用于强化学习机械臂控制中基于磁场的奖励塑形方法。首先，设计任务环境和机械臂、目标物、障碍物的相关参数，设置强化学习算法的超参数；其次，将机械臂与环境交互，收集训练数据，计算机械臂末端坐标在目标物和障碍物中的磁场强度，得到奖励函数；最后，从经验回放池中采集一个批次的数据，使用深度强化学习算法训练机械臂完成规定任务。该方法虽然能够在保证最优策略不变的情况下，为机械臂提供关于目标物和障碍物更为丰富的方位信息，从而在复杂动态环境中有效提高

4、cn115091469a提出了一种基于最大熵框架的深度强化学习机械臂运动规划方法。首先，采集环境信息，包括初始状态下的机械臂状态信息、运动目标点和中间障碍物信息；其次，建立机械臂运动学模型，将采集到的状态信息通过正运动学运算得到机械臂末端点位置信息；最后，根据状态量得到机械臂速度增量。该方法对深度强化学习中环境进行了定义，定义了连续空间下机械臂路径规划环境中状态，动作以及奖励函数，在算法上，通过将返回分布函数嵌入最大熵来动态调整q的范围，缓解了传统强化学习存在的q值的高估情况；同时利用重组轨迹经验重放的方法，充分探索受限空间，提高算法的收敛速度，但是该方法未考虑根据移动路径长度、障碍碰撞情况、各关节摩擦、位置误差等反馈情况计算损失函数，忽略了基于损失函数对各神经网络进行迭代更新，无法为机械臂各节提供精准的移动轨迹控制策略。

技术实现思路

1、针对现有技术中存在的问题，本专利技术提出了一种基于深度强化学习的机械臂精准控制充电盖开合方法，包括基于多网络衔接的机械臂精准控制充电盖开合模型构建方法，以及基于控制序列迭代优化的机械臂精准控制充电盖开合模型训练方法。本专利技术减小了机械臂移动路径的动作空间，加快了收敛速度，为机械臂各节提供精准的移动轨迹控制策略。

2、本专利技术第一方面提出了机械臂精准控制充电盖开合模型的构建方法，采用以下技术方案：

3、机械臂精准控制充电盖开合模型的构建方法，基于多网络衔接，其具体步骤为：

4、（a1）按照机械臂的固有形态，为每节机械臂分别构建一个神经网络；

5、（a2）构建机械臂的控制序列关系，进而得到各神经网络的序列关系；

6、（a3）将最终目的位置、前序机械臂位置、所有故障位置输入各神经网络，各神经网络输出对应节机械臂的移动轨迹控制策略，并将前序神经网络输出的移动轨迹控制策略输入到后序神经网络中，得到机械臂精准控制充电盖开合模型。

7、步骤（a1）的具体过程为：

8、（a1-1）考虑机械臂有节，集合表示为：

9、；

10、其中，为最靠近充电盖的机械臂，为最靠近机械臂底座的机械臂；

11、（a1-2）对应构建每节机械臂的神经网络，表示为：

12、；

13、其中，为第节机械臂对应的神经网络，、均为神经网络参数，为神经网络生成函数。

14、步骤（a2）的具体过程为：

15、（a2-1）为构建各节机械臂的控制序列关系，以机械臂底座向充电盖的机械臂末端为序列方向，构建机械臂的控制序列关系，进而得到各神经网络的序列关系；为的后序机械臂，则对应的为的后序神经网络。

16、步骤（a3）中，对应节机械臂的移动轨迹控制策略表示为：

17、；

18、其中，为第节机械臂对应的移动轨迹控制策略；为第节机械臂对应的神经网络；为机械臂的最终目的位置；为第节机械臂的前序机械臂，即第节机械臂的位置；为机械臂的所有故障位置集合。

19、本专利技术提出的机械臂精准控制充电盖开合模型构建方法，为减小机械臂移动路径的动作空间，加快收敛速度，首先按照机械臂的固有形态，为每节机械臂分别构建一个神经网络；其次以机械臂底座向充电盖的机械臂末端为序列方向，构建机械臂的控制序列关系和神经网络的序列关系；接着，将最终目的位置、前序机械臂的位置、所有故障位置输入神经网络；最后，神经网络输出对应节机械臂的移动轨迹控制策略，并将前序神经网络输出的移动轨迹控制策略输入到后序神经网络中，实现了机械臂控制充电盖开合的精确控制，加快了深度强化学习的收敛速率，有效提高了机械臂控制充电盖开合的时效性。

20、本专利技术另一方面还提出了机械臂精准控制充电盖开合模型的训练方法，基于控制序列迭代优化，其具体步骤为：

21、（b1）构建机械臂精准控制充电盖开合模型总体损失函数并判断是否低于预设阈值；若是，模型输出最优的机械臂移动轨迹移动策略；若否，执行（b2）-（b3）；

22、（b2）将机械臂精准控制充电盖开合模型总体损失函数平分，获得机械臂的均分损失函数，基于最后一节机械臂的均分损失函数，采用梯度下降法更新其神经网络参数；

23、（b3）基于后续机械臂反推更新前序机械臂的最优移动轨迹移动策略，计算反推更新的移动轨迹移动策略与原移动轨迹移动策略的偏差；基于偏差以及机械臂均分损失函数调整机械臂轨迹控制损失函数，基于机械臂轨迹控制损失函数更新各神经网络参数。

24、步骤（b1）中，基于机械臂精准控制充电盖开合模型总体移动路径长度误差、障碍碰撞情况、总体摩擦情况、位置误差构建模型总体损失函数，表示为：

25、；

26、其中，为模型总体损失函数，为总体移动路径长度误差，为障碍碰撞情况权重，为摩擦情况权重，为位置误差权重。该公式意为，总体移动路径长度误差与位置误差越大、障碍碰撞情况与总体摩擦情况越严重，则模型总体损失函数越大。

27、考虑各节机械臂具有不同的移动控制策略，基于模型总体损失函数更新各神经网络参数偏差较大。为提高机械臂移动轨迹控制策略的准确性，平分本文档来自技高网...

【技术保护点】

1.基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，包括机械臂精准控制充电盖开合模型的构建和机械臂精准控制充电盖开合模型的训练；

2.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（A1）的具体过程为：

3.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（A2）的具体过程为：

4.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（A3）中，对应节机械臂的移动轨迹控制策略表示为：

5.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（B1）中，基于机械臂精准控制充电盖开合模型总体移动路径长度误差、障碍碰撞情况、总体摩擦情况、位置误差构建模型总体损失函数，表示为：

6.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（B2）中，机械臂均分损失函数为：

7.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法

8.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（B3）中，机械臂轨迹控制损失函数，表示为：

...

【技术特征摘要】

2.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（a1）的具体过程为：

3.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（a2）的具体过程为：

4.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖开合方法，其特征在于，步骤（a3）中，对应节机械臂的移动轨迹控制策略表示为：

5.根据权利要求1所述的基于深度强化学习的机械臂精准控制充电盖...

【专利技术属性】
技术研发人员：朱晓东，刘思华，乔振家，康凯，胡玉哲，曲展秀，高善鑫，刘俊达，李方圆，
申请(专利权)人：国网山东电动汽车服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人