一种基于随机势博弈的无人机目标追踪方法、系统及设备技术方案

技术编号:38710629 阅读:11 留言:0更新日期:2023-09-08 14:53
本发明专利技术公开了一种基于随机势博弈的无人机目标追踪方法、系统及设备,涉及无人机目标追踪领域,该方法包括:获取无人机和目标在仿真环境中的初始状态,并基于初始状态构建状态参数;将状态参数分别输入至无人机导航器和目标导航器中对初始状态进行更新;基于更新后的状态计算代价函数;基于代价函数,采用深度强化学习框架计算无人机导航器和目标导航器的更新梯度;基于更新梯度对无人机导航器和目标导航器进行训练;将更新后的无人机导航器部署到无人机中,通过实际场景中获取的目标状态和无人机状态优化训练后的无人机导航器;基于优化后的无人机导航器实现目标的追踪。本发明专利技术能够提升无人机追踪能力的鲁棒性。够提升无人机追踪能力的鲁棒性。够提升无人机追踪能力的鲁棒性。

【技术实现步骤摘要】
一种基于随机势博弈的无人机目标追踪方法、系统及设备


[0001]本专利技术涉及无人机目标追踪
,特别涉及一种基于随机势博弈的无人机目标追踪方法、系统及设备。

技术介绍

[0002]随着智能分布式控制算法的快速进步,多无人机系统(以下简称多机系统)在军事和民用领域发挥着重要作用。所述的无人机包括旋翼、固定翼飞行器、飞艇等任意可控的无人动力飞行器。军用方面,多机系统可作为独立任务执行单位或载人机的辅助单位执行侦查、监视和打击任务;民用方面,将多机系统部署在救灾行动或基础设施检查中,不仅节省人力物力成本,且提高了任务执行效率。在上述应用中,多机系统必须同时具备环境自适应、目标跟踪和多角度观察能力,以有效应对非合作对象。当前多机系统已初步具备智能特点,基于融合传感器数据的跟踪算法已相对成熟,但实际使用场景仍存在以下问题:
[0003](1)环境存在不确定性。障碍物、危险或禁飞空域等限制导致多机系统在执行目标跟踪任务时环境动态变化,且多机系统通过传感器获取的信息存在噪声或干扰,降低了状态信息可信度和完整性;
[0004](2)跟踪目标多为非合作对象。多机系统在执行情报、监视与侦查等任务时跟踪对象可能为非合作单位,目标会采取躲避、干扰等措施,大部分目标跟踪方法未考虑系统与目标之间的博弈关系,而基于博弈关系的跟踪算法目前主要聚焦于零和博弈场景,未考虑未知环境对博弈关系的影响。

技术实现思路

[0005]本专利技术的目的是提供一种基于随机势博弈的无人机目标追踪方法、系统及设备,考虑环境的不确定性与跟踪对象的非合作行为对任务的影响,使多机系统具备实用化能力,并提升追踪能力的鲁棒性。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种基于随机势博弈的无人机目标追踪方法,包括:
[0008]获取无人机和目标在仿真环境中的初始状态,并基于所述初始状态构建状态参数;所述状态参数包括:所述无人机与所述目标的相对位置、多个所述无人机之间的相对位置、所述无人机的观测值和所述目标的观测值;
[0009]根据所述状态参数,基于无人机导航器和目标导航器中对所述初始状态进行更新;
[0010]基于更新后的状态计算代价函数;所述代价函数的形式满足随机势博弈的条件;
[0011]基于所述代价函数,采用深度强化学习框架计算所述无人机导航器和所述目标导航器的更新梯度;
[0012]基于所述更新梯度对所述无人机导航器和所述目标导航器进行训练;
[0013]将更新后的无人机导航器部署到无人机中,通过实际场景中获取的目标状态和无
人机状态优化训练后的无人机导航器;
[0014]基于优化后的无人机导航器实现目标的追踪。
[0015]可选地,根据所述状态参数,基于无人机导航器和目标导航器中对所述初始状态进行更新,具体包括:
[0016]将所述状态参数输入至所述无人机导航器中,得到当前时刻无人机的期望值;所述期望值包括期望航向和期望速度;
[0017]基于所述期望值,采用机载飞控算法计算控制量;
[0018]基于所述控制量,采用无人机动力学模型计算无人机下一时刻的状态;
[0019]将所述状态参数输入至所述目标导航器中,得到导航指令;
[0020]基于所述导航指令,采用目标动力学模型计算目标下一时刻的状态。
[0021]可选地,所述代价函数的计算公式如下:
[0022][0023]其中,R
i
表示第i个智能体的代价函数,所述智能体包括无人机和目标,表示第i个智能体的追踪代价函数,表示第i个智能体的包围代价函数,表示第i个智能体的动作平滑代价函数,表示第i个智能体的碰撞代价函数。
[0024]可选地,所述追踪代价函数的计算公式如下:
[0025][0026]其中,β
trac
表示追踪比例系数,表示目标的最大地速,v
max
表示无人机的最大地速,为无人机j与目标k的相对距离变化率,N表示无人机总数。
[0027]可选地,所述包围代价函数的计算公式如下:
[0028][0029]其中,β
sur
表示包围比例系数,表示第i个无人机和目标连线与第i+1个无人机和目标连线之间的夹角。
[0030]可选地,所述平滑代价函数的计算公式如下:
[0031][0032]其中,β
act
表示平滑比例系数,N
act
表示动作求和步长,a
i
表示i个无人机的导航器的输出动作,t表示时间步。
[0033]可选地,所述碰撞代价函数的计算公式如下:
[0034][0035]其中β
obs
表示碰撞比例系数,N
obs
表示传感器数量,l
obs
表示传感器最远探测距离,L
n
表示传感器n的探测值。
[0036]本专利技术还提供了一种基于随机势博弈的无人机目标追踪系统,包括:
[0037]状态参数构建模块,用于获取无人机和目标在仿真环境中的初始状态,并基于所述初始状态构建状态参数;所述状态参数包括:所述无人机与所述目标的相对位置、多个所述无人机之间的相对位置、所述无人机的观测值和所述目标的观测值;
[0038]状态训练模块,用于根据所述状态参数,基于无人机导航器和目标导航器中对所述初始状态进行更新;
[0039]代价函数计算模块,用于基于更新后的状态计算代价函数;所述代价函数的形式满足随机势博弈的条件;
[0040]更新梯度计算模块,用于基于所述代价函数,采用深度强化学习框架计算所述无人机导航器和所述目标导航器的更新梯度;
[0041]训练模块,用于基于所述更新梯度对所述无人机导航器和所述目标导航器进行训练;
[0042]优化模块,用于将更新后的无人机导航器部署到无人机中,通过实际场景中获取的目标状态和无人机状态优化训练后的无人机导航器;
[0043]追踪模块,用于基于优化后的无人机导航器实现目标的追踪。
[0044]本专利技术还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的基于随机势博弈的无人机目标追踪方法。
[0045]本专利技术还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于随机势博弈的无人机目标追踪方法。
[0046]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0047]在仿真阶段,本专利技术同仿真数据训练无人机导航器,基于随机势博弈策略计算代价函数,采用深度强化学习框架更新导航器参数,使双方导航决策达到纳什均衡状态;在实际应用过程中,本专利技术通过实际场景中的无人机状态观测与目标状态观测定期迭代优化无人机导航器,进一步提升跟踪能力。本专利技术可使多机系统在未知环境中对非合作目标实时跟踪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机势博弈的无人机目标追踪方法,其特征在于,包括:获取无人机和目标在仿真环境中的初始状态,并基于所述初始状态构建状态参数;所述状态参数包括:所述无人机与所述目标的相对位置、多个所述无人机之间的相对位置、所述无人机的观测值和所述目标的观测值;根据所述状态参数,基于无人机导航器和目标导航器中对所述初始状态进行更新;基于更新后的状态计算代价函数;所述代价函数的形式满足随机势博弈的条件;基于所述代价函数,采用深度强化学习框架计算所述无人机导航器和所述目标导航器的更新梯度;基于所述更新梯度对所述无人机导航器和所述目标导航器进行训练;将更新后的无人机导航器部署到无人机中,通过实际场景中获取的目标状态和无人机状态优化训练后的无人机导航器;基于优化后的无人机导航器实现目标的追踪。2.根据权利要求1所述的基于随机势博弈的无人机目标追踪方法,其特征在于,根据所述状态参数,基于无人机导航器和目标导航器中对所述初始状态进行更新,具体包括:将所述状态参数输入至所述无人机导航器中,得到当前时刻无人机的期望值;所述期望值包括期望航向和期望速度;基于所述期望值,采用机载飞控算法计算控制量;基于所述控制量,采用无人机动力学模型计算无人机下一时刻的状态;将所述状态参数输入至所述目标导航器中,得到导航指令;基于所述导航指令,采用目标动力学模型计算目标下一时刻的状态。3.根据权利要求1所述的基于随机势博弈的无人机目标追踪方法,其特征在于,所述代价函数的计算公式如下:其中,R
i
表示第i个智能体的代价函数,所述智能体包括无人机和目标,表示第i个智能体的追踪代价函数,表示第i个智能体的包围代价函数,表示第i个智能体的动作平滑代价函数,表示第i个智能体的碰撞代价函数。4.根据权利要求3所述的基于随机势博弈的无人机目标追踪方法,其特征在于,所述追踪代价函数的计算公式如下:其中,β
trac
表示追踪比例系数,表示目标的最大地速,v
max
表示无人机的最大地速,为无人机j与目标k的相对距离变化率,N表示无人机总数。5.根据权利要求3所述的基于随机势博弈的无人机目标追踪方法,其特征在于,所述包围代价函数的计算公式如下:
其中,β
sur
...

【专利技术属性】
技术研发人员:杨可捷祝明郭虓邓志诚
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1