一种基于自适应Q学习的地面单元协同路径规划方法技术

技术编号:36338425 阅读:16 留言:0更新日期:2023-01-14 17:51
本发明专利技术公开的一种基于自适应Q学习的地面单元协同路径规划方法,属于机动能力领域。本发明专利技术实现方法为:本发明专利技术将状态空间的划分方式由传统的栅格法改变成以初始节点和目标节点的相对距离与固定状态间隔d确定空间状态,根据地面单元趋近目标的程度设计奖惩函数,从而缓解由于目标位置改变而导致包含环境信息的Q表无法适用于新环境的风险,能够提高地面单元协同路径规划效率和安全性。本发明专利技术将动作空间的划分方式由传统的固定动作改变成依据路网节点连接关系确定动作空间,减少无用动作空间,提高动作空间对路网环境的适用性,且能够缓解大规模地面单元路径规划问题中面临的“维度灾难”问题,提高复杂路网环境下路径协同规划效率。划效率。划效率。

【技术实现步骤摘要】
一种基于自适应Q学习的地面单元协同路径规划方法


[0001]本专利技术涉及一种基于自适应Q学习的地面单元协同路径规划方法,属于机动能力领域。

技术介绍

[0002]以装甲车辆、地面指挥车和导弹发射车为代表的地面单元广泛应用于情报侦察、通信指挥、作战对抗等关键领域,其生存能力对整个作战系统的作战效能具有十分重要的影响。地面单元的生存能力是指其在对抗过程中保持战术技术性能不遭受重大损失的前提下,能连续、有效地执行既定任务的能力。地面单元通过规避威胁提高其生存能力,最终安全到达目标区域。因此,提高多地面单元在复杂路网环境下协同路径规划的时效性,能够有效提升多地面单元的生存能力。地面单元路径规划算法主要可分为图搜索算法、人工势场法及智能优化算法。包括Dijkstra算法、A*算法、人工势场法、快速搜索随机树(RRT)算法、遗传算法(GA)、粒子群算法(PSO)等。图搜索类算法均需对地图进行离散化,因此在复杂环境下需要遍历大量节点、计算复杂。人工势场法通过构建虚拟力场引导地面单元向目标点抵近,具有算法简单,实时性好的优点,但是易陷入局部最优解。群智能优化算法解决路径规划问题时往往存在计算量大,难以快速处理高维路径问题。随着战场环境日益复杂,未来地面单元将以大规模作战为主,上述经典路径规划算法难以快速解决路网约束下多地面单元协同路径规划问题。近年来,强化学习方法逐渐被应用于解决路径规划问题。Q学习算法作为典型的与模型无关的强化学习算法,被广泛应用于路径规划中。Q学习算法通过智能体与环境交互进行训练,基于完成训练的Q表进行决策,类似于快速查表的思想,因此利用Q学习进行路径规划具有较高的规划效率。针对复杂路网环境下多地面单元协同路径规划需要适应快变环境等问题,经典Q学习算法由于空间状态的划分方式导致训练好的Q表只适用于目标状态、威胁状态固定的场景,对于复杂快变路网环境的适应性较差。针对上述问题,提出一种面向多地面单元生存能力增强的自适应Q学习协同路径规划方法。以规划始末相对距离作为状态输入,设计Q学习的空间状态划分机制,使得Q表适用于任意目标位置。基于图论建立路网环境模型,依据路网节点关系确定动作空间。综合威胁信息和目标距离设计奖惩函数,定制包含任务信息和环境信息的自适应Q表。
[0003](1)强化学习驱动的多地面单元路径规划
[0004]地面单元路径规划问题的实质是在地面单元满足路网约束和障碍约束的条件下,寻找一条或多条路径代价小,耗时少的无碰撞路径。在复杂路网环境下,经典路径规划算法面临搜索耗时长的问题,而Q学习算法通过地面单元在任务环境下采取动作去探索状态空间,并通过环境奖励做出判断,是一类高效的学习类算法,可以用来解决在路网约束复杂环境下路径规划耗时长的问题。
[0005]基于路网模型,设计路径规划问题的强化学习要素,地面单元路径规划问题满足马尔可夫决策过程(Markov Decision Process,MDP),因此可采用Q学习算法进行求解。假设当前地面单元所处的状态为s
i
,下一状态为s
i+1
,且s
i+1
只与s
i
相关,而与之前的状态无关。
在路径规划过程中,MDP由一个五元组{S,A,P,R,γ}组成,每个组成元素的含义如下:S={s1,s2,s3,...,s
n
}表示地面单元所处状态的集合,A={a1,a2,a3,...,a
n
}表示地面单元在某个状态所执行的动作,P={s
t
,a
t
,s
t+1
}表示地面单元从当前状态s
t
执行动作a
t
转移到下一状态s
t+1
的转移概率。R={r1,r2,r3,...,r
n
}表示地面单元在当前状态执行某个动作得到的奖惩值,γ∈(0,1),γ代表折扣因子,γ越大,Q学习更趋向于采取使当前状态奖励最大的动作。

技术实现思路

[0006]为缓解经典Q学习算法下Q表对目标位置、威胁区域改变时不再适用的弊端,路网约束下地面单元协同路径规划面临计算量大、规划耗时增加等问题,本专利技术公开的一种基于自适应Q学习的地面单元协同路径规划方法要解决的技术问题为:在复杂路网环境下,通过改变状态空间和动作空间的划分方式,使得包含路网环境状态信息的Q表对快变环境具有良好的适应性,能够缓解大规模地面单元路径规划问题中面临的“维度灾难”问题,从而提高路径规划的效率。本专利技术适用于存在目标改变、威胁区域更新的路网约束下的路径规划问题。
[0007]本专利技术的目的是通过下述技术方案实现的。
[0008]本专利技术公开的一种基于自适应Q学习的地面单元协同路径规划方法,将状态空间的划分方式由传统的栅格法改变成以规划始末相对距离作为状态输入,将动作空间的划分方式由传统的固定动作改变成依据路网节点连接关系确定动作空间。利用包含路网环境状态信息的Q表对地面单元各起点快速规划无碰撞、代价小的路径,从而提高路网约束下的地面单元协同路径规划效率。
[0009]本专利技术公开的一种基于自适应Q学习的地面单元协同路径规划方法,包括如下步骤:
[0010]步骤A:分别建立路网模型和协同路径规划模型,为所述路网模型和协同路径规划模型赋予初始信息,通过路网模型表征环境信息,通过路径规划模型确定任务信息。
[0011]步骤A

1:建立路网模型,采用节点和路径可以对路网进行数学逻辑上的描述,基本的数字路网模型图可以表示为:
[0012][0013]式中:G为路网模型;N为路径节点的集合,n
i
∈N表示第i个节点,表示该任意节点的位置;R为路径的集合,r
l
∈R表示第l段路径;f为两个道路节点或任意一条路径的权重值。
[0014]步骤A

2:建立协同路径规划模型,协同路径规划任务是在给定起始位置、目标位置、及威胁信息后,规划出无碰撞的路径。地面单元协同路径规划模型建立如下:
[0015][0016]式中:Φ为地面单元路径规划总任务;k
i
∈K表示第i个起点,d
m
∈D表示第m个目标点。表示起始点的位置,表示目标点的位置;T为威胁区域的集合,N
t
为威胁区域数量,r
t
、x
t
、y
t
表示威胁区域的半径和位置。
[0017]步骤B:以目标位置为圆心,利用相邻节点的距离确定固定状态间隔d,结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M。空间状态的范围是以目标位置为圆心,固定状态间隔为d的同心圆。通过定义状态空间,对规划空间进行离散化,提高Q表对动态目标环境的适用性。
[0018]确定固定状态空间间隔d,以目标位置为圆心,结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M。r
m
表示以目标点为圆心第m个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应Q学习的地面单元协同路径规划方法,其特征在于:包括如下步骤,步骤A:分别建立路网模型和协同路径规划模型,为所述路网模型和协同路径规划模型赋予初始信息,通过路网模型表征环境信息,通过路径规划模型确定任务信息;步骤B:以目标位置为圆心,利用相邻节点的距离确定固定状态间隔d,结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M;空间状态的范围是以目标位置为圆心,固定状态间隔为d的同心圆;通过定义状态空间,对规划空间进行离散化,提高Q表对动态目标环境的适用性;步骤C:根据步骤A建立的路网模型确定路径节点的连接关系,依据路网节点连接关系确定动作空间,将动作空间的划分方式由传统的固定动作改变成依据路网节点连接关系确定动作空间,减少无用动作空间,提高动作空间对路网环境的适用性,且能够缓解大规模地面单元路径规划问题中面临的“维度灾难”问题,提高复杂路网环境下路径规划效率;步骤D:根据地面单元趋近目标的程度设计奖惩函数,当节点处于安全区域时,随着当前节点逐渐接近目标节点,地面单元获得的奖励值逐渐增大,引导地面单元朝着目标节点扩展;当节点处于威胁区域时,对地面单元加以惩罚,引导地面单元规避障碍;步骤E:结合任务信息、状态空间、动作空间和奖惩函数生成包含环境和任务信息的Q表;Q表的行代表所处的状态空间,列代表当前节点可选择的动作,Q表中每个单元格的值则表示地面单元在当前状态下采取某个动作所获得的奖惩值;步骤F:基于步骤E更新得到的Q表,对地面单元各起点快速规划无碰撞路径,提高路网约束下的地面单元协同路径规划效率。2.如权利要求1所述的一种基于自适应Q学习的地面单元协同路径规划方法,其特征在于:步骤A实现方法为,步骤A

1:建立路网模型,采用节点和路径可以对路网进行数学逻辑上的描述,基本的数字路网模型图可以表示为:式中:G为路网模型;N为路径节点的集合,n
i
∈N表示第i个节点,表示该任意节点的位置;R为路径的集合,r
l
∈R表示第l段路径;f为两个道路节点或任意一条路径的权重值;步骤A

2:建立协同路径规划模型,协同路径规划任务是在给定起始位置、目标位置、及威胁信息后,规划出无碰撞的路径;地面单元协同路径规划模型建立如下:
式中:Φ为地面单元路径规划总任务;k
i
∈K表示第i个起点,d
m
∈D表示第m个目标点;表示起始点的位置,表示目标点的位置;T为威胁区域的集合,N
t
为威胁区域数量,r
t
、x
t
、y
t
表示威胁区域的半径和位置。3.如权利要求2所述的一种基于自适应Q学习的地面单元协同路径规划方法,其特征在于:步骤B实现方法为,确定固定状态空间间隔d,以目标位置为圆心,结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M;r
m
表示以目标点为圆心第m个空间状态的范围半径,r
m
由式(3)计算得到:r
m
=m*d(m=1,2,...,M)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)通过将状态空间的划分方式由传统的栅格法改变成以规划始末相对距离作为状态输入,...

【专利技术属性】
技术研发人员:龙腾郭淼孙景亮史人赫王仰杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1