一种基于DRL的四足机器人路径规划方法技术

技术编号:34453388 阅读:13 留言:0更新日期:2022-08-06 16:56
本发明专利技术提供一种基于DRL的四足机器人路径规划方法,首先通过四足机器人自带的RGB

【技术实现步骤摘要】
一种基于DRL的四足机器人路径规划方法


[0001]本专利技术属于机器人路径规划
,涉及一种基于深度强化学习的路径规划算法,采用DQN对全局信息进行规划,确定出一条最优路径后,基于人工势场算法,预测环境环境中的动态障碍物信息,进行实时避碍。

技术介绍

[0002]随着机器人技术的发展,足式机器人被广泛应用于实际,如:灾后搜救、军事侦察等领域。相比较轮式、履带式机器人,足式机器人只需要寻找一系列离散的足散点来接触地面,对于一些崎岖的地形有较好的适应性;并且由于足式机器人的腿部具有多个自由度,其在运动时重心位置的调整具有很好的灵活性。
[0003]在足式机器人中,四足机器人以良好的负载能力和行走稳定性被广泛应用于实际。随着人工智能的兴起,四足机器人正朝着自探索、自学习、自适应的方向发展。四足机器人的自主导航过程可以分为环境感知、路径规划和运动控制三个过程。路径规划作为其中间环节,是移动机器人实现自主导航的关键技术,移动机器人路径规划结果的优劣程度将直接影响机器人完成任务的质量。
[0004]在移动机器人领域,路径规划一直是一大研究热点,其目的是规划出一条从起始点到目标点的最优无碰撞路径。传统的路径规划方法是基于物理模型构建机器人的运动环境,然后结合传统的搜索算法如粒子群优化算法来完成路径规划。然而这些方法需要提前搭建环境地图,对陌生的场景泛化能力差,四足机器人常常因无法绕过障碍物而陷在局部之中。并且在机器人的许多应用环境中,机器人的工作环境是复杂多样不可预测的,这要求机器人需要具有一定的智能程度,即具有自主学习能力和对环境的探索能力。另一方面,由于机器人在未知环境下,由于机器人对环境信息的掌握并不是很充足,为了让机器人成功地在未知环境下成功、高效地实现路径规划,需要机器人系统具有一定程度的适应能力和处理紧急情况的能力。因此,提高四足机器人对环境的适应性,对环境进行感知,对提高其路径规划的能力具有重大意义。
[0005]根据路径规划过程对环境信息的已知程度,路径规划可以分为全局路径规划和局部路径规划。其中应用较为广泛的全局路径规划有A*算法、dijkstra算法、自由空间法、可视图法等;局部路径规划算法有人工势场算法、遗传算法、强化学习算法等。
[0006]近年来,强化学习在四足机器人
备受关注,在路径规划问题上有优秀的表现。强化学习作为一种重要的机器学习方法,其采用了“尝试与失败”机制,基于马尔可夫策略与环境不断交互与试错,根据环境反馈的立即奖励修改状态到动作的映射策略,从而获得最优行为策略。由于强化学习在学习过程中不需要先验知识,是通过与环境交互累计奖励来优化策略,因此其在求解复杂优化决策问题方面有着广泛的应用前景。

技术实现思路

[0007]本专利技术的目的是提供一种基于DRL的四足机器人路径规划方法,以解决四足机器
人在复杂障碍物环境下(在该环境中不仅存在静态的已知障碍物还存在未知的动态障碍物)的路径规划问题。首先基于马尔可夫策略,对四足机器人运动环境进行建模,设置奖励函数,运用DQN算法对全局信息进行规划,得到一条最优或较优的路径;然后在全局规划的基础上,基于人工势场算法不断探测环境中的动态障碍物,进行实时避碍,使四足机器人的自主学习率和运动安全性均得到提高,避免陷在局部状态,其运动鲁棒性更强。
[0008]为到达上述目的,本专利技术通过如下技术方案来实现:一种基于DRL的四足机器人路径规划方法,包括如下步骤:
[0009]步骤S1、通过四足机器人的RGB

D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,将四足机器人、障碍物、目标位置均通过栅格坐标表示,得到初始状态;
[0010]步骤S2、将四足机器人运动环境分解为一系列具有二值信息的栅格单元,从而分成被障碍物占据的栅格和可自由通行的栅格;
[0011]步骤S3、基于马尔可夫决策过程进行建模,并初始化基本参数;
[0012]步骤S4、引入注意力机制优化神经网络模型,并建立DQN网络;
[0013]步骤S5、将提取到的状态特征和目标位置作为网络的输入,根据置信区间上界策略进行探索动作;
[0014]步骤S6、接下来在全局路径规划的基础上,运用人工势场算法不断探测环境中的动态障碍物,进行实时避碍;
[0015]步骤S7、执行动作,得到当前奖励值,不断通过目标值网络更新权重,以获取最佳的期望奖励,实现估计值网络的训练;
[0016]步骤S8、重复执行步骤S4、步骤S5和步骤S6,确定出一条最优的全局路径。
[0017]具体地,所述步骤S1中,在进行路径规划前,对四足机器人获得的环境图像进行分割处理,基于栅格法,将其运动环境定义为20*20的栅格图;如果在栅格中发现障碍物,则定义为障碍物位置;如果在栅格中发现目标点,则定义为目标位置。
[0018]具体地,所述步骤S2中,栅格图以每个栅格为基本单元,主要包括两种状态:若栅格中存在障碍物则定义为障碍栅格,否则为自由栅格;环境Map由栅格map
i
构成,如公式(1)所示:
[0019]Map={map
i
,map
i
=0或1,i为整数}
ꢀꢀꢀ
(1)
[0020]其中map
i
=0表示该格为自由栅格,map
i
=1表示该格为障碍栅格。
[0021]具体地,所述S3中,建模方式和初始化参数的具体步骤如下:
[0022]步骤S3.1:基于马尔可夫决策过程对四足机器人的运动环境进行建模,其MDP定义如下:
[0023](1)单智能体:四足机器人;
[0024](2)动作空间:四足机器人沿着空白栅格进行移动,可以进行上下左右的移动,则其动作空间可以表示为A={0,1,2,3},其中,0代表东,1代表东南,2代表南,3代表西南,4代表西,5代表西北,6代表北,7代表东北,方向为顺时针编码方向;
[0025](3)状态空间:包括四足机器人的状态信息和t时刻障碍物的状态信息;四足机器人在t时刻的状态信息定义为S
t
={(x,y),θ/2π,d
obj
,d
aim
},其中(x,y)表示四足机器人在当前地图中的坐标,θ/2π表示其朝向,d
obj
和d
aim
分别表示距离最近障碍物和目标位置的距离。
t时刻观察状态的第i个障碍物的状态表示为O
i
={p
x
,p
y
,v
x
,v
y
,r},分别表示障碍物的位置[p
x
,p
y
]、速度[v
x
,v
y
]和大小半径r;
[0026](4)奖励函数:智能体通过环境的反馈来评价动作好坏,通过学习后选择奖励值最大的动作;当四足机器人抵达本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DRL的四足机器人路径规划方法,其特征在于,包括如下步骤:步骤S1、通过四足机器人的RGB

D相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,将四足机器人、障碍物、目标位置均通过栅格坐标表示,得到初始状态;步骤S2、将四足机器人运动环境分解为一系列具有二值信息的栅格单元,从而分成被障碍物占据的栅格和可自由通行的栅格;步骤S3、基于马尔可夫决策过程进行建模,并初始化基本参数;步骤S4、引入注意力机制优化神经网络模型,并建立DQN网络;步骤S5、将提取到的状态特征和目标位置作为网络的输入,根据置信区间上界策略进行探索动作;步骤S6、运用人工势场算法不断探测环境中的动态障碍物,进行实时避碍;步骤S7、执行动作,得到当前奖励值,不断通过目标值网络更新权重,以获取最佳的期望奖励,实现估计值网络的训练;步骤S8、重复执行步骤S4、步骤S5和步骤S6,确定出一条最优的全局路径。2.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S1具体过程如下:在进行路径规划前,对四足机器人获得的环境图像进行分割处理:基于栅格法,将其运动环境定义为20*20的栅格图,如果在栅格中发现障碍物,则定义为障碍物位置;如果在栅格中发现目标点,则定义为目标位置。3.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S2具体过程如下:栅格图以每个栅格为基本单元,包括两种状态:若栅格中存在障碍物则定义为障碍栅格,否则为自由栅格;环境Map由栅格map
i
构成,其描述如下:Map={map
i
,map
i
=0或1,i为整数}
ꢀꢀ
(1)其中,map
i
=0表示该格为自由栅格,map
i
=1表示该格为障碍栅格。4.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S3具体包括如下步骤:步骤S3.1:基于马尔可夫决策过程对四足机器人的运动环境进行建模,其MDP定义如下:(1)单智能体:四足机器人;(2)动作空间:四足机器人沿着空白栅格进行移动,进行上下左右的移动,则其动作空间可以表示为A={0,1,2,3,4,5,6,7},其中,0代表东,1代表东南,2代表南,3代表西南,4代表西,5代表西北,6代表北,7代表东北,方向为顺时针编码方向;(3)状态空间:包括四足机器人的状态信息和t时刻障碍物的状态信息;四足机器人在t时刻的状态信息定义为S
t
={(x,y),θ/2π,d
obj
,d
aim
},其中(x,y)表示四足机器人在当前地图中的坐标,θ/2π表示其朝向,d
obj
和d
aim
分别表示距离最近障碍物和目标位置的距离,t时刻观察状态的第i个障碍物的状态表示为O
i
={p
x
,p
y
,v
x
,v
y
,r},分别表示障碍物的位置[p
x
,p
y
]、速度[v
x
,v
y
]和大小半径r;(4)奖励函数:智能体通过环境的反馈来评价动作好坏,通过学习后选择奖励值最大的动作;当四足机器人抵达目标点或者障碍物时,给予一个固定的奖励值,同时本次路径规划结束;当四足机器人处于其他状态时,机器人距离目标点越近,在每一步的移动中,获得的奖励值越大;相反机器人距离障碍物越近,在每一步的移动中,会得到一个负奖励;将两个
奖励值之和作为四足机器人执行一次动作后获得的最终的奖励,通过公式(2)计算:四足机器人在执行动作时的奖励值函数如公式(3)所示:其中,若四足机器人到达目标点,奖励值为200;若四足机器人与障碍物的最小距离小于设定值,表示与障碍物发生碰撞,奖励值为

200,在这两个条件下,四足机器人都会停止训练,否则,此时的奖励值由两部分组成:四足机器人与最近障碍物的距离信息的负奖励值,四足机器人与目标点距离信息的正奖励值;步骤S3.2:初始化深度强化学习模型的基本参数,基本参数包括:强化学习学习率α∈(0,1),奖励折扣因子γ∈(0,1),贪婪因子ε,经验回放池容量L,目标值网络权重更新步长C,估计值网络随机参数θ,目标值网络参数θ

,迭代次数N,Q值函数的更新表达式如公式(4)所示:Q(s
t
,a)=Q(s
t
,a
t
)+α(reward+γmaxQ(s
t+1
,a
t+1
)

Q(s
t
,a
t
)
ꢀꢀ
(4)步骤S3.3:随机生成起始点坐标和目标点坐标,并确保起始点和目标点处不存在障碍物。5.如权利要求1所述的一种基于DRL的四足机器人路径规划方法,其特征在于:步骤S4中的具体过程如下:步骤S4.1:设计一个基于DQN的全卷积神经网络模型,能够最大限度地保留图像原有的空间信息,该网络模型...

【专利技术属性】
技术研发人员:陈利球陈根升牛宪伟王体方许政伟
申请(专利权)人:云南红岭云科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1