System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器人避障,尤其涉及一种基于智能跨域策略迁移的机器人装配避障方法及系统。
技术介绍
1、目前广泛使用的机器人装配和避障技术依赖于深度强化学习(drl)。这些技术通过大量的环境交互和数据积累,逐步学习完成任务的策略。例如,使用强化学习训练的机器人能够通过不断尝试和错误来优化其路径选择和物体操作策略,从而在有障碍的环境中实现有效的避障和精确的装配。这些方法主要依赖于大量的交互数据和长时间的训练周期,通过逐步学习环境特征和任务策略来适应复杂场景,然而,相关技术中,存在的一些不足,如训练时间长,drl通常需要长时间的训练才能达到工业使用的稳定性和效率;数据依赖性强,有效的drl策略需要大量的环境交互数据,这在实际应用中往往是不可行的;环境适应性差,当机器人从一个训练环境转移到实际的生产环境时,由于环境差异可能导致性能显著下降。
2、综上,相关技术中存在的技术问题有待得到改善。
技术实现思路
1、为了解决上述技术问题,本专利技术的目的是提供一种基于智能跨域策略迁移的机器人装配避障方法及系统,能够提高机器人的操作安全性和生产效率,减少了碰撞和故障的风险。
2、本专利技术所采用的第一技术方案是:一种基于智能跨域策略迁移的机器人装配避障方法,包括以下步骤:
3、构建源环境场景与目标环境场景,所述源环境场景表示无障碍的仿真环境,所述目标环境场景表示有障碍的仿真环境;
4、基于源环境场景,通过深度强化学习策略与稀疏奖励机制,对机器人进行三维
5、基于目标环境场景,对近似最优源域策略进行迁移,并结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略;
6、将最优目标域策略部署于机器人控制平台,完成机器人三维装配避障操作。
7、进一步,所述基于源环境场景,通过深度强化学习策略与稀疏奖励机制,对机器人进行三维装配操作,构建近似最优源域策略这一步骤,其具体包括:
8、基于深度强化学习策略,初始化策略网络、值函数与经验回放缓冲区;
9、基于源环境场景,采集机器人三维装配操作数据并存储至经验回放缓冲区;
10、基于演员-评论家架构算法,设定最大熵目标,通过最大化累计最大熵目标的期望值,对经验回放缓冲区中的机器人三维装配操作数据进行随机更新,得到随机更新后的机器人三维装配操作数据;
11、设置稀疏奖励机制,获取随机更新后的机器人三维装配操作数据的奖励激励并对经验回放缓冲区进行更新;
12、通过her算法对随机更新后的机器人三维装配操作数据进行标记处理,得到标记后的机器人三维装配操作数据;
13、根据标记后的机器人三维装配操作数据对策略网络与值函数进行更新,直至策略网络与值函数满足预设要求,构建近似最优源域策略。
14、进一步,所述最大化累计最大熵目标的期望值的表达式具体如下所示:
15、;
16、上式中,表示最大熵目标的期望值,表示立即回报项,量化了环境的即时反馈,表示熵回报项,表示温度参数,用来调整熵项的权重,控制探索与利用之间的权衡,表示在状态-动作分布上的期望值,是按照策略生成的状态-动作对的分布,表示在时间步的环境状态,表示在时间步由智能体采取的动作,表示策略,即状态到动作分布的映射,用于定义智能体的行为,表示总时间范围、考虑的整个回合轨迹的时间步数,表示在0到范围内的具体时间步。
17、进一步,所述基于目标环境场景,对近似最优源域策略进行迁移,并结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略这一步骤,其具体包括:
18、考虑目标环境场景与源环境场景的差异性,将近似最优源域策略进行迁移,构建目标环境场景最优决策策略;
19、通过动态策略依赖方法,对目标环境场景最优决策策略进行更新处理,得到更新后的目标环境场景最优决策策略;
20、基于更新后的目标环境场景最优决策策略,结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略。
21、进一步,所述考虑目标环境场景与源环境场景的差异性,将近似最优源域策略进行迁移,构建目标环境场景最优决策策略这一步骤,其具体包括:
22、定义目标环境场景的目标域与源环境场景的源域;
23、获取源域的外部知识与目标域的内部知识;
24、通过将源域的外部知识与目标域的内部知识进行融合,对近似最优源域策略进行迁移,得到目标环境场景最优决策策略。
25、进一步,所述目标环境场景最优决策策略的表达式具体如下所示:
26、;
27、上式中,表示目标环境场景最优决策策略,为状态-动作值函数或函数,在策略下,在状态采取动作时的预期累积回报,表示在状态分布和策略下的期望值,表示从初始状态到第步的状态分布,旨在最大化函数的期望值,表示当前的环境状态,表示智能体在状态下选择的动作。
28、进一步,所述通过动态策略依赖方法,对目标环境场景最优决策策略进行更新处理,得到更新后的目标环境场景最优决策策略这一步骤,其具体包括:
29、通过近似最优源域策略的在线评论家网络与目标环境场景最优决策策略的在线评论家网络,对给定的机器人动作与状态进行评估,获取源域q值与目标域q值;
30、将源域q值与目标域q值进行整合,得到综合评价网络q值;
31、根据综合评价网络q值定义最优机器人动作,并通过bellman方程获取最优机器人动作的价值预期q值;
32、基于价值预期q值对目标环境场景最优决策策略进行更新处理,得到更新后的目标环境场景最优决策策略。
33、进一步,所述基于更新后的目标环境场景最优决策策略,结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略这一步骤,其具体包括:
34、构建目标域状态向量,所述目标域状态向量包括机器人的状态信息与障碍物的状态信息;
35、将目标域状态向量输入至更新后的目标环境场景最优决策策略进行评估当前状态和动作的价值;
36、通过策略梯度方法,结合当前状态和动作的价值进行目标环境场景最优决策策略的参数更新,最大化期望回报,构建最优目标域策略。
37、本专利技术所采用的第二技术方案是:一种基于智能跨域策略迁移的机器人装配避障系统,包括:
38、第一模块,用于构建源环境场景与目标环境场景,所述源环境场景表示无障碍的仿真环境,所述目标环境场景表示有障碍的仿真环境;
39、第二模块,用于基于源环境场景,通过深度强化学习策略与稀疏奖励机制,对机器人进行三维装配操作,构建近似最优源域策略;
40、第三模块,用于基于目标环境场景,对近似最优源域策略进行迁移,并结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略;
41、第四模块,用于将最优目标域策略部署于机本文档来自技高网...
【技术保护点】
1.一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述基于源环境场景,通过深度强化学习策略与稀疏奖励机制,对机器人进行三维装配操作,构建近似最优源域策略这一步骤,其具体包括:
3.根据权利要求2所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述最大化累计最大熵目标的期望值的表达式具体如下所示:
4.根据权利要求3所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述基于目标环境场景,对近似最优源域策略进行迁移,并结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略这一步骤,其具体包括:
5.根据权利要求4所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述考虑目标环境场景与源环境场景的差异性,将近似最优源域策略进行迁移,构建目标环境场景最优决策策略这一步骤,其具体包括:
6.根据权利要求5所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述目标环境
7.根据权利要求6所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述通过动态策略依赖方法,对目标环境场景最优决策策略进行更新处理,得到更新后的目标环境场景最优决策策略这一步骤,其具体包括:
8.根据权利要求7所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述基于更新后的目标环境场景最优决策策略,结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略这一步骤,其具体包括:
9.一种基于智能跨域策略迁移的机器人装配避障系统,其特征在于,包括以下模块:
...【技术特征摘要】
1.一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述基于源环境场景,通过深度强化学习策略与稀疏奖励机制,对机器人进行三维装配操作,构建近似最优源域策略这一步骤,其具体包括:
3.根据权利要求2所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述最大化累计最大熵目标的期望值的表达式具体如下所示:
4.根据权利要求3所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述基于目标环境场景,对近似最优源域策略进行迁移,并结合状态拼接策略对机器人进行三维装配避障操作,构建最优目标域策略这一步骤,其具体包括:
5.根据权利要求4所述一种基于智能跨域策略迁移的机器人装配避障方法,其特征在于,所述考虑目标环...
【专利技术属性】
技术研发人员:卢清华,全伟鑫,朱文博,罗陆锋,陈明猷,张云志,王恺,
申请(专利权)人:佛山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。