System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及空间机器人,特别是指一种基于强化学习的空间桁架多机器人协同装配方法及装置。
技术介绍
1、随着空间机器人技术和人工智能技术的发展,单个机械臂的装配受到操作能力的限制。针对于空间桁架结构复杂的问题,单个空间机械臂的装配效率有限,相比于单机械臂装配操作,多个机械臂系统在执行任务的过程之中协同操作,将具有更高的效率、自适应能力以及容错率。
2、另一方面,针对复杂桁架装配过程,通过人工经验对其进行处理将消耗大量的人力成本,同时具有较多的重复性工作,不利于空间桁架的可扩展性。因此,拥有一个具备装配序列决策、任务目标分类的多空间机械臂协同装配系统对空间桁架的在轨装配技术具有重要意义。
3、目前,尽管关于基于强化学习的多机械臂强化学习有一些初步研究,但是针对非接结构化环境下的复杂桁架装配问题的研究尚未见公开报道,特别是包括完整的环境与桁架识别、桁架装配序列生成、多机械臂操作指令生成的多机械臂协同操作系统。
4、综上所述,为了使多个机械臂能够灵活智能的完成复杂桁架装配任务,需要综合利用基于多智能体强化学习的多机械臂系统通过感知、解析、提取、决策的手段将桁架装配的决策过程实现智能化自主学习,将装配序列、桁架单元类别和动态环境的全状态信息端到端地映射到多机械臂桁架装配系统的装配操作决策中。
技术实现思路
1、为了解决现有技术存在的如何使多个机械臂能够灵活智能的完成复杂桁架装配任务的技术问题,本专利技术实施例提供了一种基于强化学习的空间桁架多机器人协同装
2、一方面,提供了一种基于强化学习的空间桁架多机器人协同装配方法,该方法由空间桁架多机器人协同装配设备实现,该方法包括:
3、s1、确定待装配的桁架单元。
4、s2、获取多个空间机械臂的状态信息,将状态信息输入到最优空间机械臂的策略模型,得到多个空间机械臂的运动决策控制指令。
5、s3、根据运动决策控制指令,控制多个空间机械臂对桁架单元进行装配,完成多机器人协同的桁架装配任务。
6、可选地,s2中的最优空间机械臂的策略模型的构建过程,包括:
7、s21、确定桁架单元。
8、s22、构建空间机械臂的策略模型,采集仿真环境中多个空间机械臂的状态信息作为训练数据对空间机械臂的策略模型进行训练,得到训练好的空间机械臂的策略模型。
9、s23、将状态信息输入到训练好的空间机械臂的策略模型,得到样本运动决策控制指令。
10、s24、根据样本运动决策控制指令,控制多个空间机械臂对桁架单元进行装配,得到奖励值以及新的状态信息。
11、s25、根据奖励值以及新的状态信息对训练好的空间机械臂的策略模型进行决策修正,得到修正后的空间机械臂的策略模型。
12、s26、判断是否满足设定的终止条件。
13、若满足设定的终止条件,则桁架单元装配完成,判断是否满足设定迭代次数;若满足设定迭代次数,则输出最优空间机械臂的策略模型;若不满足设定迭代次数,则获取下一桁架单元,转去执行步骤s23。
14、若不满足设定的终止条件,则转去执行步骤s24。
15、可选地,s21中的确定桁架单元,包括:
16、s211、获取桁架单元的装配顺序,对装配顺序利用近端优化策略网络采集装配序列状态信息。
17、s212、对装配序列状态信息进行特征提取,生成桁架单元的装配序列。
18、s213、获取目标桁架单元。
19、s214、对目标桁架单元进行识别,得到目标桁架单元特征。
20、s215、根据桁架单元的装配序列以及目标桁架单元特征,判断目标桁架单元是否为待装配的桁架单元。
21、若是,则输出桁架单元。
22、若否,则获取下一桁架单元作为目标桁架单元,转去执行步骤s214。
23、可选地,s214中的对目标桁架单元进行识别,得到目标桁架单元特征,包括:
24、构建表征神经网络对目标桁架单元进行识别,得到目标桁架单元特征。
25、可选地,s22中的对空间机械臂的策略模型进行训练,包括:
26、使用深度确定性策略梯度框架对空间机械臂的策略模型进行训练。
27、可选地,s22中的采集仿真环境中多个空间机械臂的状态信息作为训练数据,对空间机械臂的策略模型进行训练,得到训练好的空间机械臂的策略模型,包括:
28、采集仿真环境中多个空间机械臂的基座状态信息,根据基座状态信息训练神经网络参数,得到最优的编队决策模型。
29、采集仿真环境中多个空间机械臂的机械臂状态信息,根据机械臂状态信息训练神经网络参数,得到最优的协同运动决策。
30、根据最优的编队决策模型以及最优的协同运动决策,得到训练好的空间机械臂的策略模型。
31、另一方面,提供了一种基于强化学习的空间桁架多机器人协同装配装置,该装置应用于基于强化学习的空间桁架多机器人协同装配方法,该装置包括:
32、确定模块,用于确定待装配的桁架单元。
33、输入模块,用于获取多个空间机械臂的状态信息,将状态信息输入到最优空间机械臂的策略模型,得到多个空间机械臂的运动决策控制指令。
34、输出模块,用于根据运动决策控制指令,控制多个空间机械臂对桁架单元进行装配,完成多机器人协同的桁架装配任务。
35、可选地,输入模块,进一步用于:
36、s21、确定桁架单元。
37、s22、构建空间机械臂的策略模型,采集仿真环境中多个空间机械臂的状态信息作为训练数据对空间机械臂的策略模型进行训练,得到训练好的空间机械臂的策略模型。
38、s23、将状态信息输入到训练好的空间机械臂的策略模型,得到样本运动决策控制指令。
39、s24、根据样本运动决策控制指令,控制多个空间机械臂对桁架单元进行装配,得到奖励值以及新的状态信息。
40、s25、根据奖励值以及新的状态信息对训练好的空间机械臂的策略模型进行决策修正,得到修正后的空间机械臂的策略模型。
41、s26、判断是否满足设定的终止条件。
42、若满足设定的终止条件,则桁架单元装配完成,判断是否满足设定迭代次数;若满足设定迭代次数,则输出最优空间机械臂的策略模型;若不满足设定迭代次数,则获取下一桁架单元,转去执行步骤s23。
43、若不满足设定的终止条件,则转去执行步骤s24。
44、可选地,输入模块,进一步用于:
45、s211、获取桁架单元的装配顺序,对装配顺序利用近端优化策略网络采集装配序列状态信息。
46、s212、对装配序列状态信息进行特征提取,生成桁架单元的装配序列。
47、s213、获取目标桁架单元。
48、s214、对目标桁架单元进行本文档来自技高网...
【技术保护点】
1.一种基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述S2中的最优空间机械臂的策略模型的构建过程,包括:
3.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述S21中的确定桁架单元,包括:
4.根据权利要求3所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述S214中的对目标桁架单元进行识别,得到目标桁架单元特征,包括:
5.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述S22中的对空间机械臂的策略模型进行训练,包括:
6.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述S22中的采集仿真环境中多个空间机械臂的状态信息作为训练数据,对空间机械臂的策略模型进行训练,得到训练好的空间机械臂的策略模型,包括:
7.一种基于强化学习的空间桁架多机器人协同装配装置,所述基于强化学习的空间桁架多机器人
8.根据权利要求7所述的基于强化学习的空间桁架多机器人协同装配装置,其特征在于,所述输入模块,进一步用于:
9.一种空间桁架多机器人协同装配设备,其特征在于,所述空间桁架多机器人协同装配设备包括:
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。
...【技术特征摘要】
1.一种基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述s2中的最优空间机械臂的策略模型的构建过程,包括:
3.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述s21中的确定桁架单元,包括:
4.根据权利要求3所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述s214中的对目标桁架单元进行识别,得到目标桁架单元特征,包括:
5.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特征在于,所述s22中的对空间机械臂的策略模型进行训练,包括:
6.根据权利要求2所述的基于强化学习的空间桁架多机器人协同装配方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。