一种机械臂轨迹智能规划算法,包括以下步骤:给定机械臂初始点,终止点和约束条件。对生产环境进行建模,然后通过强化学习算法,训练agent进行决策,输出每个关节的速度规划路径,控制机械臂达到目标点。本发明专利技术克服了现有技术的不足,通过好奇心驱动学习的方法提高了算法的探索能力,从而提高鲁棒性,避免陷入局部最优;同时逐步增加任务难度,使算法可以适应复杂场景的避障路径规划;在保证了机械臂运动规划的平滑性、转动过程平稳的前提下,实现了自动部署。动部署。动部署。
【技术实现步骤摘要】
一种机械臂轨迹智能规划算法
[0001]本专利技术涉及机械臂轨迹规划的
,具体涉及一种机械臂轨迹智能规划算法。
技术介绍
[0002]在机械臂的工业生产中,传统机械臂算法需要工程师花费时间调试校准,机械臂在运动中做到精准、平稳的轨迹规划至关重要。然而,生产模具的每一次轻微调整和生产场景的变化,都需要工程师重新调试,这样就需要花费大量的人力和时间成本。随着生产现场场景的复杂度增加或者生产模型的种类增多,调试轨迹的时间还会大幅增加。对企业的人力成本和时间成本有着很大的影响。
[0003]因此,设计一个自动适应不同生产模型和根据环境自动调整规划路径的算法,在减少企业生产成本上显得尤为重要。
技术实现思路
[0004]针对现有技术的不足,本专利技术提供了一种机械臂轨迹智能规划算法,克服了现有技术的不足,设计合理,通过好奇心驱动学习的方法提高了算法的探索能力,从而提高鲁棒性,避免陷入局部最优;同时通过课程学习逐步增加任务难度,使算法可以适应复杂场景的避障路径规划;在保证了机械臂运动规划的平滑性、转动过程平稳的前提下,实现了自动部署。
[0005]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0006]一种机械臂轨迹智能规划算法,包括以下步骤:
[0007]步骤S1:对生产环境进行建模,确定目标位置和障碍物位置;
[0008]步骤S2:基于无监督的强化学习算法做机械臂的关节空间路径规划,保证机械臂的关节空间轨迹平滑;
[0009]步骤S3:根据规划的动力学参数,得到空间下一时刻机械臂轨迹路径点;
[0010]步骤S4:通过规划器控制机械臂运动,得到新的环境状态以及动作奖励;
[0011]步骤S5:利用新的环境状态和动作奖励进行下一步的运动决策,从而得到马尔科夫决策过程;
[0012]步骤S6:控制机械臂到达目标点后停止运动。
[0013]所述步骤S2中强化学习算法采用PPO算法作为基准算法,其中,使用重要性采样获得采样,使用其他分布q获得数据,来估计基于分布p的函数期望:
[0014][0015]其中:p和q分别是测试数据分布和训练样本分布。
[0016]基于离线policyπ
θ'
采样的数据,训练在线policyπ
θ
,在此过程中,由于π
θ'
是固定的,因此可以重复使用π
θ'
的数据训练π
θ
多次,增加数据利用率,提高训练稳定性。
[0017]优选地,采用clip的方法对θ'和θ进行采样约束:
[0018][0019]在奖励机制中加入好奇心(Curiosity)奖励机制,提取环境中有用的信息,并对这一部分特征的探索进行奖励,使奖励变得稠密,从而提高训练效果。
[0020]所述步骤S6在机械臂到达目标的任务完成后,再进一步训练智能体完成更难的任务,在环境中加入障碍物。
[0021]本专利技术提供了一种机械臂轨迹智能规划算法。具备以下有益效果:通过好奇心驱动学习的方法提高了算法的探索能力,从而提高鲁棒性,避免陷入局部最优;同时逐步增加任务难度,使算法可以适应复杂场景的避障路径规划;在保证了机械臂运动规划的平滑性、转动过程平稳的前提下,实现了自动部署。
附图说明
[0022]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。
[0023]图1本专利技术的步骤原理框图;
[0024]图2本专利技术中强化学习环境与智能体相互作用过程原理图;
[0025]图3本专利技术中clip的方法进行采样约束的线性图;
[0026]图4本专利技术中好奇心驱动学习的方法的机制原理图;
[0027]图5本专利技术中渐进网络架构图;
具体实施方式
[0028]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述。
[0029]如图1
‑
4所示,本专利技术提出了一种机械臂轨迹智能规划算法,包括以下步骤:
[0030]步骤S1:对生产环境进行建模,确定目标位置和障碍物位置;
[0031]步骤S2:基于无监督的强化学习算法做机械臂的关节空间路径规划,保证机械臂的关节空间轨迹平滑;
[0032]步骤S3:根据规划的动力学参数,得到空间下一时刻机械臂轨迹路径点;
[0033]步骤S4:通过规划器控制机械臂运动,得到新的环境状态以及动作奖励;
[0034]步骤S5:利用新的环境状态和动作奖励进行下一步的运动决策,从而得到马尔科夫决策过程;
[0035]步骤S6:控制机械臂到达目标点后停止运动。
[0036]其中,强化学习环境与智能体相互作用过程如图2所示;
[0037]算法结构:PPO算法+好奇心驱动学习的方法+课程学习方法;
[0038]首先对生产环境进行建模中,
[0039]环境参数为:目标信息、障碍信息、机械臂关节运动学信息;
[0040]预测动作为:关节下一时刻运动参数;
[0041]奖励函数:机械臂按最优路线行进的奖励和惩罚;
[0042]本算法采用PPO算法作为基准算法,其中,使用重要性采样获得采样,使用其他分布q获得数据,来估计基于分布p的函数期望:
[0043][0044]其中:p和q分别是测试数据分布和训练样本分布。
[0045]再基于离线policyπ
θ'
采样的数据,训练在线policyπ
θ
,在此过程中,由于π
θ'
是固定的,因此可以重复使用π
θ'
的数据训练π
θ
多次,增加数据利用率,提高训练稳定性。
[0046]由于θ'与θ不能差别太大,所以需要有个约束,采用clip的方法对θ'和θ进行采样约束(如图所示):
[0047][0048]在完成简单任务后,通过好奇心驱动学习的方法提升算法的探索能力,以自适应复杂的环境。
[0049]该策略经过训练以优化环境提供的外在奖励和我们提出的内在好奇心模块生成的基于好奇心的内在奖励信号的总和。如图所示,ICM将状态S
t
、S
t+1
编码到特征中,从而被训练来预测动作(即逆动力学模型)。前向模型将转态和动作作为输入,并预测下一动作的特征。特征空间中的预测误差被用作基于好奇心的内在奖励信号。
[0050]在机械臂到达目标的任务完成后,再来进一步训练智能体完成更难的任务,从添加简单障碍开始,逐步增加机械臂完成任务的难度。
[0051]采用渐进神经网络,使agent在不同任务之间有效的迁移习得的技能,同时避免灾难性遗忘。课程学习通过一组逐步堆叠的神经网络列来实现。如图5所示,渐进网络具有如下结构:
[0052]1、该网络从一列开始,包含L层神经元,对应本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种机械臂轨迹智能规划算法,其特征在于,包括以下步骤:步骤S1:对生产环境进行建模,确定目标位置和障碍物位置;步骤S2:基于无监督的强化学习算法做机械臂的关节空间路径规划,保证机械臂的关节空间轨迹平滑;步骤S3:根据规划的动力学参数,得到空间下一时刻机械臂轨迹路径点;步骤S4:通过规划器控制机械臂运动,得到新的环境状态以及动作奖励;步骤S5:利用新的环境状态和动作奖励进行下一步的运动决策,从而得到马尔科夫决策过程;步骤S6:控制机械臂到达目标点后停止运动。2.根据权利要求1所述的一种机械臂轨迹智能规划算法,其特征在于:所述步骤S2中强化学习算法采用PPO算法作为基准算法,其中,使用重要性采样获得采样,使用其他分布q获得数据,来估计基于分布p的函数期望:其中:p和q分别是测试数据分布和训练样本分布。3.根据权利要求2所述的一种机械臂轨迹智能规划算法,其特征在于:...
【专利技术属性】
技术研发人员:高芮,
申请(专利权)人:上海摩马智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。