当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于图神经网络和强化学习的多机器人任务规划方法技术

技术编号:39154709 阅读:18 留言:0更新日期:2023-10-23 15:00
本发明专利技术提供了一种基于图神经网络和强化学习的多机器人任务规划方法。该方法包括:基于第一深度神经网络构建单机器人焊接路径规划模型,利用单机器人焊接路径规划模型的样本数据集和第一强化学习算法对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;基于第二深度神经网络构建多机器人任务分配模型,利用多机器人任务分配模型的样本数据集、训练完成的单机器人焊接路径规划模型和第二强化学习算法对多机器人任务分配模型进行训练,得到训练完成的多机器人任务分配模型;焊接机器人利用训练完成的多机器人任务分配模型求解所要负责焊接的焊点任务集,利用训练完成的单机器人焊接路径规划模型求解焊点的焊接顺序。型求解焊点的焊接顺序。型求解焊点的焊接顺序。

【技术实现步骤摘要】
一种基于图神经网络和强化学习的多机器人任务规划方法


[0001]本专利技术涉及多机器人协作任务规划
,特别是涉及一种基于图神经网络和强化学习的多机器人任务规划方法。

技术介绍

[0002]汽车焊装是工业机器人应用的重要场景之一,整车焊装生产线具有数百台机器人进行协同焊装,多机器人焊接工艺规划与整车制造成本和生产效率息息相关。为了提高多机器人焊接的效率以及合理分配焊接任务进而提升车身制造的效率和质量,需要对位于焊接作业空间中的多个机器人以及多个焊点进行规划。然而,多机器人焊接任务分配是高度耦合的优化问题,属于NP

Hard子问题。
[0003]现有技术方案中,多采用专家调优进行多机器人焊接任务规划,上述方法存在生产成本高、环境适应能力差、焊接时间长等问题。采用蚁群算法、粒子算法和遗传算法等传统智能算法也存在生产效率低等问题。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种基于图神经网络和强化学习的多机器人任务规划方法,以期至少能够解决上述问题之一。
[0005]根据本专利技术的实施例,提供了一种基于图神经网络和强化学习的多机器人任务规划方法,包括:分别生成用于单机器人焊接路径规划模型和多机器人任务分配模型训练的样本数据集,其中,样本数据集中包括焊接机器人的位置坐标和焊点的位置坐标;基于第一深度神经网络构建单机器人焊接路径规划模型,利用单机器人焊接路径规划模型训练的样本数据集和第一强化学习算法对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;基于第二深度神经网络构建多机器人任务分配模型,利用多机器人任务分配模型训练的样本数据集、训练完成的单机器人焊接路径规划模型和第二强化学习算法对多机器人任务分配模型进行训练,得到训练完成的多机器人任务分配模型;焊接机器人利用训练完成的多机器人任务分配模型求解所要负责焊接的焊点任务集,并利用训练完成的单机器人焊接路径规划模型求解焊点的焊接顺序。
[0006]根据本专利技术的实施例,上述分别生成用于单机器人焊接路径规划模型和多机器人任务分配模型训练的样本数据集包括:在预设尺度的三维空间中生成多组样本数据集,每组样本数据集包括个节点坐标,定义个焊接机器人对应的节点标号为,坐标为,定义个焊点对应的节点标号为,坐标为,其中,、以及均为正整数;其中,用于单机器人焊接路径规划模型训练的样本数据集中,焊接机器人的个数

[0007]根据本专利技术的实施例,上述基于第一深度神经网络构建单机器人焊接路径规划模型包括:第一深度神经网络采用第一编码器

第一解码器结构,其中,第一编码器包含一个图注意力网络,第一解码器包含一个策略网络,策略网络由多头注意力层和单头注意力层组成。
[0008]根据本专利技术的实施例,上述第一编码器执行以下功能:将单机器人焊接路径规划训练的样本数据集作为第一编码器的输入,利用图注意力网络输出单机器人焊接路径规划训练的样本数据集中每个节点的特征向量;其中,第一解码器执行以下功能:将单机器人焊接路径规划训练的样本数据集中所有节点的特征向量的最大值作为全局嵌入向量,并将单机器人焊接路径规划训练的样本数据集中每个节点的特征向量和全局嵌入向量作为第一解码器的输入,利用第一解码器的策略网络输出单机器人焊接路径规划训练的样本数据集中每个焊点被焊接机器人访问的概率;将焊点被焊接机器人访问的概率由大到小排序,焊接机器人依据排序对焊点依次进行焊接操作。
[0009]根据本专利技术的实施例,上述利用单机器人焊接路径规划模型训练的样本数据集和第一强化学习算法对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型包括:根据预设的第一损失函数和预设的第一奖励函数,利用单机器人焊接路径规划模型训练的样本数据集并通过带基准的第一强化学习算法对单机器人焊接路径规划模型进行训练,直到满足预设的第一训练迭代次数,得到训练完成的单机器人焊接路径规划模型。
[0010]根据本专利技术的实施例,上述第一损失函数如公式(1)所示:(1),其中,为累积奖励,为基准函数,为状态下采取策略的概率,表示单机器人焊接路径规划模型的参数,表示数学期望运算;第一奖励函数设置为所有焊点焊接路程总和的负值,如公式(2)所示:(2),其中,表示在策略下第个焊点的位置坐标,表示二阶范数,表示所述焊点的总数。
[0011]根据本专利技术的实施例,上述基于第二深度神经网络构建多机器人任务分配模型包括:第二深度神经网络采用第二编码器

第二解码器结构,其中第二编码器包含一个图注意力网络,第二解码器包含个策略网络,策略网络由多头注意力层和单头注意力层组成。
[0012]根据本专利技术的实施例,上述第二编码器执行以下功能:将多机器人任务分配训练的样本数据集作为第二编码器的输入,利用图注意力网络输出多机器人任务分配训练的样本数据集中每个节点的特征向量;其中,第二解码器执行以下功能:将多机器人任务分配训练的样本数据集中所有节点的特征向量的最大值作为全局嵌入向量,并将多机器人任务分配训练的样本数据集中每个节点的特征向量和全局嵌入向量作为第二解码器的输入,利用第二解码器的个策略网络分别输出多机器人任务分配训练的样本数据集中每个焊点被分配到个焊接机器人的概率;选择焊点被分配到个焊接机器人的概率的最大值,并将焊点分配给最大概率对应的焊接机器人的任务集。
[0013]根据本专利技术的实施例,上述利用多机器人任务分配模型训练的样本数据集、训练完成的单机器人焊接路径规划模型和第二强化学习算法对多机器人任务分配模型进行训练,得到训练完成的多机器人任务分配模型包括:根据预设的第二损失函数和预设的第二奖励函数,利用多机器人任务分配模型训练的样本数据集并通过带基准的第二强化学习算法对多机器人任务分配模型进行训练,直到满足预设的第二训练迭代次数,得到训练完成的多机器人任务分配模型;其中,第二奖励函数通过训练完成的单机器人焊接路径规划模型求解。
[0014]根据本专利技术的实施例,上述第二损失函数如公式(3)所示:(3),其中,为累积奖励,为基准函数,为状态下采取策略的概率,表示多机器人任务分配模型的参数,表示数学期望运算;第二奖励函数如公式(4)所示:(4),其中,为使所有焊接机器人的最大焊接路程最小,取所有焊接机器人焊接路程最大值的负值为奖励,如公式(5)所示:(5),其中,为保证所有焊接机器人焊接路程的均衡性,取所有焊接机器人焊接路程最大值和最小值的差值的负值为奖励,如公式(6)所示:(6),其中,为防止焊接机器人在焊接过程中发生碰撞,当焊接机器人分配的焊点坐标有交集时视为发生碰撞,取碰撞约束为奖励,如公式(7)所示:
(7),其中,表示在采取策略时,焊接机器人所分配的个焊点任务; 表示第个焊接机器人在采取策略时,第个焊点的位置坐标;表示二阶范数,表示焊接机器人的数量,表示碰撞奖励值,表示焊接机器人所分配的焊点中坐标的最大值,表示焊接机器人所分配的焊点中坐标的最小值,表示焊接机器人所分配的焊点中坐标的最大值,表示焊接机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络和强化学习的多机器人任务规划方法,其特征在于,包括:分别生成用于单机器人焊接路径规划模型和多机器人任务分配模型训练的样本数据集,其中,所述样本数据集中包括焊接机器人的位置坐标和焊点的位置坐标;基于第一深度神经网络构建所述单机器人焊接路径规划模型,利用所述单机器人焊接路径规划模型训练的样本数据集和第一强化学习算法对所述单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;基于第二深度神经网络构建所述多机器人任务分配模型,利用所述多机器人任务分配模型训练的样本数据集、所述训练完成的单机器人焊接路径规划模型和第二强化学习算法对所述多机器人任务分配模型进行训练,得到训练完成的多机器人任务分配模型;焊接机器人利用所述训练完成的多机器人任务分配模型求解所要负责焊接的焊点任务集,并利用所述训练完成的单机器人焊接路径规划模型求解焊点的焊接顺序。2.根据权利要求1所述的方法,其特征在于,所述分别生成用于单机器人焊接路径规划模型和多机器人任务分配模型训练的样本数据集包括:在预设尺度的三维空间中生成多组样本数据集,每组所述样本数据集包括个节点坐标,定义个焊接机器人对应的节点标号为,坐标为,定义个焊点对应的节点标号为,坐标为,其中,、以及均为正整数;其中,用于所述单机器人焊接路径规划模型训练的样本数据集中,所述焊接机器人的个数。3.根据权利要求1所述的方法,其特征在于,所述基于第一深度神经网络构建所述单机器人焊接路径规划模型包括:所述第一深度神经网络采用第一编码器

第一解码器结构,其中,第一编码器包含一个图注意力网络,第一解码器包含一个策略网络,所述策略网络由多头注意力层和单头注意力层组成。4.根据权利要求3所述的方法,其特征在于,所述第一编码器执行以下功能:将单机器人焊接路径规划训练的样本数据集作为第一编码器的输入,利用所述图注意力网络输出所述单机器人焊接路径规划训练的样本数据集中每个节点的特征向量;其中,所述第一解码器执行以下功能:将所述单机器人焊接路径规划训练的样本数据集中所有节点的特征向量的最大值作为全局嵌入向量,并将所述单机器人焊接路径规划训练的样本数据集中每个节点的特征向量和所述全局嵌入向量作为所述第一解码器的输入,利用所述第一解码器的策略网络输出所述单机器人焊接路径规划训练的样本数据集中每个焊点被焊接机器人访问的概率;将所述焊点被所述焊接机器人访问的概率由大到小排序,所述焊接机器人依据所述排序对焊点依次进行焊接操作。5.根据权利要求1所述的方法,其特征在于,所述利用所述单机器人焊接路径规划模型训练的样本数据集和第一强化学习算法对所述单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型包括:根据预设的第一损失函数和预设的第一奖励函数,利用所述单机器人焊接路径规划模型训练的样本数据集并通过带基准的第一强化学习算法对所述单机器人焊接路径规划模
型进行训练,直到满足预设的第一训练迭代次数,得到所述训练完成的单机器人焊接路径规划模型。6.根据权利要求5所述的方法,其特征在于,所述第一损失函数如公式(1)所示:(1),其中,为累积奖励,为基准函数,为状态下采取策略的概率,表示所述单机器人焊接路径规划...

【专利技术属性】
技术研发人员:穆朝絮张俊楠刘朝阳李海星缪志强徐娜姜泽武
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1