一种基于自适应Q学习的地面单元协同路径规划方法技术

技术编号：36338425 阅读：16 留言：0更新日期：2023-01-14 17:51

本发明专利技术公开的一种基于自适应Q学习的地面单元协同路径规划方法，属于机动能力领域。本发明专利技术实现方法为：本发明专利技术将状态空间的划分方式由传统的栅格法改变成以初始节点和目标节点的相对距离与固定状态间隔d确定空间状态，根据地面单元趋近目标的程度设计奖惩函数，从而缓解由于目标位置改变而导致包含环境信息的Q表无法适用于新环境的风险，能够提高地面单元协同路径规划效率和安全性。本发明专利技术将动作空间的划分方式由传统的固定动作改变成依据路网节点连接关系确定动作空间，减少无用动作空间，提高动作空间对路网环境的适用性，且能够缓解大规模地面单元路径规划问题中面临的“维度灾难”问题，提高复杂路网环境下路径协同规划效率。划效率。划效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应Q学习的地面单元协同路径规划方法

[0001]本专利技术涉及一种基于自适应Q学习的地面单元协同路径规划方法，属于机动能力领域。

技术介绍

[0002]以装甲车辆、地面指挥车和导弹发射车为代表的地面单元广泛应用于情报侦察、通信指挥、作战对抗等关键领域，其生存能力对整个作战系统的作战效能具有十分重要的影响。地面单元的生存能力是指其在对抗过程中保持战术技术性能不遭受重大损失的前提下，能连续、有效地执行既定任务的能力。地面单元通过规避威胁提高其生存能力，最终安全到达目标区域。因此，提高多地面单元在复杂路网环境下协同路径规划的时效性，能够有效提升多地面单元的生存能力。地面单元路径规划算法主要可分为图搜索算法、人工势场法及智能优化算法。包括Dijkstra算法、A*算法、人工势场法、快速搜索随机树(RRT)算法、遗传算法(GA)、粒子群算法(PSO)等。图搜索类算法均需对地图进行离散化，因此在复杂环境下需要遍历大量节点、计算复杂。人工势场法通过构建虚拟力场引导地面单元向目标点抵近，具有算法简单，实时性好的优点，但是易陷入局部最优解。群智能优化算法解决路径规划问题时往往存在计算量大，难以快速处理高维路径问题。随着战场环境日益复杂，未来地面单元将以大规模作战为主，上述经典路径规划算法难以快速解决路网约束下多地面单元协同路径规划问题。近年来，强化学习方法逐渐被应用于解决路径规划问题。Q学习算法作为典型的与模型无关的强化学习算法，被广泛应用于路径规划中。Q学习算法通过智能体与环境交互进行训练，基于完成训练的Q表进行决策，类...

【技术保护点】

【技术特征摘要】
1.一种基于自适应Q学习的地面单元协同路径规划方法，其特征在于：包括如下步骤，步骤A：分别建立路网模型和协同路径规划模型，为所述路网模型和协同路径规划模型赋予初始信息，通过路网模型表征环境信息，通过路径规划模型确定任务信息；步骤B：以目标位置为圆心，利用相邻节点的距离确定固定状态间隔d，结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M；空间状态的范围是以目标位置为圆心，固定状态间隔为d的同心圆；通过定义状态空间，对规划空间进行离散化，提高Q表对动态目标环境的适用性；步骤C：根据步骤A建立的路网模型确定路径节点的连接关系，依据路网节点连接关系确定动作空间，将动作空间的划分方式由传统的固定动作改变成依据路网节点连接关系确定动作空间，减少无用动作空间，提高动作空间对路网环境的适用性，且能够缓解大规模地面单元路径规划问题中面临的“维度灾难”问题，提高复杂路网环境下路径规划效率；步骤D：根据地面单元趋近目标的程度设计奖惩函数，当节点处于安全区域时，随着当前节点逐渐接近目标节点，地面单元获得的奖励值逐渐增大，引导地面单元朝着目标节点扩展；当节点处于威胁区域时，对地面单元加以惩罚，引导地面单元规避障碍；步骤E：结合任务信息、状态空间、动作空间和奖惩函数生成包含环境和任务信息的Q表；Q表的行代表所处的状态空间，列代表当前节点可选择的动作，Q表中每个单元格的值则表示地面单元在当前状态下采取某个动作所获得的奖惩值；步骤F：基于步骤E更新得到的Q表，对地面单元各起点快速规划无碰撞路径，提高路网约束下的地面单元协同路径规划效率。2.如权利要求1所述的一种基于自适应Q学习的地面单元协同路径规划方法，其特征在于：步骤A实现方法为，步骤A
‑
1：建立路网模型，采用节点和路径可以对路网进行数学逻辑上的描述，基本的数字路网模型图可以表示为：式中：G为路网模型；N为路径节点的集合，n
i
∈N表示第i个节点，表示该任意节点的位置；R为路径的集合，r
l
∈R表示第l段路径；f为两个道路节点或任意一条路径的权重值；步骤A
‑
2：建立协同路径规划模型，协同路径规划任务是在给定起始位置、目标位置、及威胁信息后，规划出无碰撞的路径；地面单元协同路径规划模型建立如下：
式中：Φ为地面单元路径规划总任务；k
i
∈K表示第i个起点，d
m
∈D表示第m个目标点；表示起始点的位置，表示目标点的位置；T为威胁区域的集合，N
t
为威胁区域数量，r
t
、x
t
、y
t
表示威胁区域的半径和位置。3.如权利要求2所述的一种基于自适应Q学习的地面单元协同路径规划方法，其特征在于：步骤B实现方法为，确定固定状态空间间隔d，以目标位置为圆心，结合初始节点和目标节点的相对距离与固定状态间隔d定义空间状态数量M；r
m
表示以目标点为圆心第m个空间状态的范围半径，r
m
由式(3)计算得到：r
m
＝m*d(m＝1,2,...,M)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)通过将状态空间的划分方式由传统的栅格法改变成以规划始末相对距离作为状态输入，...

【专利技术属性】
技术研发人员：龙腾，郭淼，孙景亮，史人赫，王仰杰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人