基于强化学习的机器人一体化网络架构优化方法及系统技术方案

技术编号:33783099 阅读:54 留言:0更新日期:2022-06-12 14:37
本发明专利技术提供了一种基于强化学习的机器人一体化网络架构优化方法及系统,首先基于多模传感器在一个由浅入深的分层式网络中进行不同程度的环境抽象特征提取;然后以上述分层式网络为主干,根据移动机器人的定位、规划、目标识别和博弈决策等方面的需求,在不同抽象层位置设计分支网络进行一体化网络实现;最后采用多目标联合的融合优化对前述一体化网络进行迭代优化,使得机器人输出合理移动和博弈策略。本发明专利技术提出的一种主干特征分层抽取、多任务分支式设计的一体化网络结构及其优化方法,解决了现有移动机器人各功能模块松耦合和分离研究的问题,提升了网络运行效率和数据利用率,减少了模块间冗余和耦合调试成本,有利于实际应用。实际应用。实际应用。

【技术实现步骤摘要】
基于强化学习的机器人一体化网络架构优化方法及系统


[0001]本专利技术涉及机器人自主能力的算法的
,具体地,涉及基于强化学习的机器人一体化网络架构优化方法及系统,尤其涉及一种基于强化学习的移动机器人一体化网络架构设计和优化方法。

技术介绍

[0002]移动机器人是指能够利用自身驱动机构在三维空间中进行运动的无人系统,其基础功能是具有可靠的移动能力。随着目前对机器人智能化水平越来越高的要求,移动机器人的自主性也受到越来越多的关注。一方面,智能移动机器人需要具备自主移动能力,具体体现在能够依赖自身第一视角传感器进行可靠的自定位、环境建模和路径规划,在更特殊的情况下,还需要对所处环境进行语义分割以辅助自身移动。另一方面,移动机器人还通常携带功能性载荷,常见的载荷包括用于对抗的射击瞄准机构(如RoboMaster机器人以及某些军用机器人)等,驱动上述机构更进一步依赖于诸如目标识别与跟踪、射击矫正与攻击决策等多种功能。如何将上述多方面的功能,以智能、自主的方式在移动机器人上完整实现,是研究人员和工程师的重点工作。
[0003]然而,虽然当前的智能移动机器人已经获得越来越广泛的应用,但是现有的实体无人系统大多都在单个功能(如建图、导航、目标检测跟踪等)上进行独立研究,在实际使用时再进行多模块之间的整合。这样极易造成功能模块不兼容、系统运行效率低、训练数据生成困难和虚实迁移保真度差的问题;另外多个功能之间往往具备相互促进和增益的关系(例如建图结果是有利于导航定位的),但是模块化、松耦合、组装式的系统往往难以有效利用不同功能之间的产出信息,造成信息损失,降低了整体无人系统的性能;其次多种功能往往都依赖于相同的传感器输入,分开考虑不同功能还会造成算力的浪费和网络的冗余。
[0004]深度强化学习方法已经被广泛应用于智能机器人的研究领域中,其基本思想是通过机器人不断试错式地采集环境样本,并利用环境提供的奖励反馈,对各种状态下的策略进行迭代优化。相比于传统基于模型的方法,深度强化学习能够利用其强大的非线性拟合能力,在不依赖于对环境先验建模的前提下,更好应对复杂状态空间、动态变化场景等极端情况。但由于强化学习通过奖励标量信号进行损失计算和迭代,面对本专利技术涉及的一体化网络多目标输出场景,则难以仅通过一个标量值衡量所有输出的好坏;另外一体化网络由于涉及到分层并联、主干分支等复杂结构,网络规模往往很大,如何有效优化这类大规模网络也是需要解决的问题。
[0005]强化学习:又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0006]损失函数:在数学优化和决策理论中,损失函数是将一个或多个变量的一个或多个事件映射到真值上,用于表示事件的损失或风险。在机器学习模型训练中,通过降低损失的方法实现优化与决策。
[0007]在公开号为CN112433525A的专利文献中公开了一种基于模仿学习及深度强化学习的移动机器人导航方法包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。
[0008]因此,需要提出一种技术方案以改善上述技术问题。

技术实现思路

[0009]针对现有技术中的缺陷,本专利技术的目的是提供一种基于强化学习的机器人一体化网络架构优化方法及系统。
[0010]根据本专利技术提供的一种基于强化学习的机器人一体化网络架构优化方法,所述方法包括如下步骤:
[0011]步骤A:构建由浅入深的主干网络,对多模传感器输入进行自适应融合,并进行不同程度特征抽取;
[0012]步骤B:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上;
[0013]步骤C:采用强化学习损失、辅助任务和自动编解码器三种方法构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡。
[0014]优选地,所述步骤A包括如下步骤:
[0015]步骤A1:对RGB相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象;
[0016]步骤A2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征;
[0017]步骤A3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征。
[0018]优选地,所述步骤A1包括如下步骤:
[0019]步骤A1.1:对RGB图像和深度图像在不同通道上进行多层卷积,并提取不同层级卷积后得到的特征向量,以输入为起点,多层卷积网络输出的图像粗抽象特征依次为其中x
i
代表图像经神经网络处理后得到的特征向量,上标m为图像粗卷积网络层的编号,m越大表示对应特征向量压缩程度更高、是由更深网络层输出的;
[0020]步骤A1.2:对三维激光雷达数据使用特定网络进行特征提取,该网络需要具备分段提取的网络结构;以输入为起点,提取激光雷达数据的粗抽象特征依次为其中x
l
代表激光雷达点云经神经网络处理后得到的特征向量,上标n为三维点云粗处理网络层的编号,n越大表示对应特征向量压缩程度更高、是由更深网络层输出的。
[0021]优选地,所述步骤A1.1和A1.2中提取网络均采用多层串联结构,形成由浅到深架构。
[0022]优选地,所述步骤A2包括如下步骤:
[0023]步骤A2.1:对任意两个待融合特征和和表示编号a的图像处理网络层输出的图像特征,表示编号为b的三维点云处理网络层输出的点云特征,1≤a≤m,1≤b≤n,计
算增广特征向量:
[0024][0025]其中W
i
和W
l
为可训练增广矩阵,两者行数均为s,增广矩阵列数随输入向量大小变化,计算结果为图像特征增广向量,为点云特征增广向量;
[0026]步骤A2.2:计算自适应系数:
[0027][0028][0029]其中为训练的注意力核,exp为以自然常数e为底的指数函数,σ为非线性函数,“||”为向量级联,计算结果α
i
和α
l
分别表示图像特征和点云特征对应的加权系数;
[0030]步骤A2.3:通过自适应系数加权求和获取融合后的特征:
[0031][0032]其中,δ为非线性函数,x
f
表示输出的融合特征,上标ab表示该融合特征是由图像特征和点云特征生成的;
[0033]步骤A2.4:对任意一个待融合粗图像特征和任意一个待融合粗三维点云特征其中,的上标表示该特征是由编号为j的图像处理网络层输出的,1≤j≤m,的上标表示该特征是由编号为k的点云处理网络层输出的,1≤k≤n,根据步骤A2.1

步骤A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述方法包括如下步骤:步骤A:构建由浅入深的主干网络,对多模传感器输入进行自适应融合,并进行不同程度特征抽取;步骤B:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上;步骤C:采用强化学习损失、辅助任务和自动编解码器三种方法构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡。2.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤A包括如下步骤:步骤A1:对RGB相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象;步骤A2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征;步骤A3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征。3.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤A1包括如下步骤:步骤A1.1:对RGB图像和深度图像在不同通道上进行多层卷积,并提取不同层级卷积后得到的特征向量,以输入为起点,多层卷积网络输出的图像粗抽象特征依次为其中x
i
代表图像经神经网络处理后得到的特征向量,上标m为图像粗卷积网络层的编号,m越大表示对应特征向量压缩程度更高、是由更深网络层输出的;步骤A1.2:对三维激光雷达数据使用特定网络进行特征提取,该网络需要具备分段提取的网络结构;以输入为起点,提取激光雷达数据的粗抽象特征依次为其中x
l
代表激光雷达点云经神经网络处理后得到的特征向量,上标n为三维点云粗处理网络层的编号,n越大表示对应特征向量压缩程度更高、是由更深网络层输出的。4.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤A1.1和A1.2中提取网络均采用多层串联结构,形成由浅到深架构。5.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤A2包括如下步骤:步骤A2.1:对任意两个待融合特征和表示编号a的图像处理网络层输出的图像特征,表示编号为b的三维点云处理网络层输出的点云特征,1≤a≤m,1≤b≤n,计算增广特征向量:其中W
i
和W
l
为可训练增广矩阵,两者行数均为s,增广矩阵列数随输入向量大小变化,计算结果为图像特征增广向量,为点云特征增广向量;
步骤A2.2:计算自适应系数:步骤A2.2:计算自适应系数:其中为训练的注意力核,exp为以自然常数e为底的指数函数,σ为非线性函数,“||”为向量级联,计算结果α
i
和α
l
分别表示图像特征和点云特征对应的加权系数;步骤A2.3:通过自适应系数加权求和获取融合后的特征:其中,δ为非线性函数,x
f
表示输出的融合特征,上标ab表示该融合特征是由图像特征和点云特征生成的;步骤A2.4:对任意一个待融合粗图像特征和任意一个待融合粗三维点云特征其中,的上标表示该特征是由编号为j的图像处理网络层输出的,1≤j≤m,的上标表示该特征是由编号为k的点云处理网络层输出的,1≤k≤n,根据步骤A2.1

步骤A2.3计算融合后特征其中,的上标表示该融合特征是由与融合得到的,根据步骤B中的需求只计算部分融合特征。6.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤B包括如下步骤:步骤B1:确定功能输出相对于传感特征的抽象程度,即功能与原始环境特征的相关性,相关性越弱,所需特征抽象程度越强;步骤B2:根据机器人特定输出功能对传感特征抽象程度的需求,将形成特定输出的子网络放置在步骤A所生成的主干网络上,所需特征越抽象,子网络位于主干网络越深的位置;步骤B3:子网络的输出作为另一子网络的部分输入;步骤B4:子网络输出端应提供生成特定功能信息的接口。7.根据权利要求1所述的基于强化学习的机器人一体化网络架构优化方法,其特征在于,所述步骤C包括如下步骤:步骤C1:构建强化学习奖励信号,并由此计算直接损失l1,衡量移动机器人的导航能力;步骤C2:构建辅助任务形成监督信号,通过采集有监督样本,对部分输出子网络进行有监督迭代,得到网络的监督损失其中,l2表示辅助任务通过有监督样本生成的损失信号,上标表示产生对应损失的辅助任务编号,p为一体化网路中辅助任务的总数;步骤C3:构建自动编解码器产生的重构无监督信号,在子网络输出端继续连接增广形态的网络结构,将数据重构成原有形态,比较重构数据与原始数据的相对误...

【专利技术属性】
技术研发人员:王贺升刘启明张金鹏
申请(专利权)人:中国长峰机电技术研究设计院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1