System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于时空态势差分的无人机自主机动决策方法以及装置制造方法及图纸_技高网

基于时空态势差分的无人机自主机动决策方法以及装置制造方法及图纸

技术编号:43994225 阅读:1 留言:0更新日期:2025-01-10 20:14
本发明专利技术提供一种基于时空态势差分的无人机自主机动决策方法以及装置,其中,上述方法包括:获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置;确定每个时间步下的第一无人机针对第二无人机攻击区距离的第一最短距离,以及第二无人机针对第一无人机攻击区的第二最短距离;基于第一最短距离与第二最短距离,确定第一无人机与第二无人机之间的相对姿态值;确定当前时间步下的第一无人机的当前奖励反馈得分,与上一时间步下的第一无人机的历史奖励反馈得分;基于当前奖励反馈得分与历史奖励反馈得分,确定第一无人机的时空态势差分奖励函数,其中,时空态势差分奖励函数用于对自主机动决策进行正反馈或负反馈。

【技术实现步骤摘要】

本专利技术涉及无人系统智能决策,尤其涉及一种基于时空态势差分的无人机自主机动决策方法以及装置


技术介绍

1、无人机机动决策是无人机实现自主能力的关键环节。无人机的机动决策是指根据实时态势信息快速做出有效的机动动作选择,其优劣程度直接反映了无人机的智能化水平。

2、目前大多数基于深度强化学习的无人机机动决策方法假设对抗环境为二维空间并对初始状态有较为严格的限定,且往往将动作空间离散化处理,导致训练的模型泛化性和通用性差。

3、由此可见,相关技术中无人机机动决策方法,存在难以满足真实环境需求的技术问题。


技术实现思路

1、本专利技术提供一种基于时空态势差分的无人机自主机动决策方法以及装置,用以解决现有技术中无人机机动决策方法存在难以满足真实环境需求的缺陷,实现给予无人机更加准确的奖励反馈。

2、本专利技术提供一种基于时空态势差分的无人机自主机动决策方法,包括如下步骤。获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置,其中,所述第一无人机与所述第二无人机位于无人机对抗仿真环境中;基于所述第一空间位置与所述第二空间位置,确定每个时间步下的所述第一无人机针对所述第二无人机攻击区距离的第一最短距离,以及所述第二无人机针对所述第一无人机攻击区的第二最短距离;基于所述第一最短距离与所述第二最短距离,确定所述第一无人机与所述第二无人机之间的相对姿态值;获取所述第一无人机与所述第二无人机之间的双方质心距离;确定所述相对姿态值与修正系数的乘积,以及所述双方质心距离与所述第一无人机的最大攻击距离的差值;将所述乘积与所述差值的平方的比值的双曲正切函数作为第一无人机的奖励反馈得分;确定当前时间步下的所述第一无人机的当前奖励反馈得分,与上一时间步下的所述第一无人机的历史奖励反馈得分;基于所述当前奖励反馈得分与所述历史奖励反馈得分,确定所述第一无人机的时空态势差分奖励函数,其中,所述时空态势差分奖励函数用于对所述自主机动决策进行正反馈或负反馈。

3、根据本专利技术提供的一种基于时空态势差分的无人机自主机动决策方法,所述基于所述第一空间位置与所述第二空间位置,确定每个时间步下的所述第一无人机针对所述第二无人机攻击区距离的第一最短距离包括:基于所述第一空间位置与所述第二空间位置,分别确定所述第一无人机的第一质点与所述第二无人机的第二质点;确定所述第一质点与所述第二质点之间的双方质心距离;获取所述第一无人机的第一飞行速度;确定所述第一飞行速度的向量与所述双方质心距离的向量之间的夹角;当所述第二质点位于所述第一质点的后方区域且不超过所述第一飞行速度的法平面的第一区域时,将所述双方质心距离作为所述第二无人机距离所述第一无人机攻击区的第一最短距离;当所述第二质点位于所述第一质点的最大攻击范围内,且不在所述第一无人机的攻击椎体的第二区域时,基于所述双方质心距离、所述夹角以及所述第一无人机的最大攻击角,确定所述第二无人机距离所述第一无人机攻击区的第一最短距离。

4、根据本专利技术提供的一种基于时空态势差分的无人机自主机动决策方法,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之前,所述方法还包括:获取每个无人机在地面坐标系中的空间位置、飞行速度、俯仰角以及航向角;基于所述空间位置、所述飞行速度、所述俯仰角以及所述航向角,确定每个无人机的状态空间;基于所述每个无人机的切向过载、法相过载以及速度旋转角,确定所述每个无人机的动作空间;基于所述飞行速度随时间的变化值、所述俯仰角随时间的变化值以及所述航向角随时间的变化值,确定所述每个无人机的动力学方程;基于所述空间位置随时间的变化值,确定所述每个无人机的运动学方程;基于所述状态空间、所述动作空间、所述动力学方程、所述运动学方程以及预设的终局条件,构建无人机对抗仿真环境。

5、根据本专利技术提供的一种基于时空态势差分的无人机自主机动决策方法,在所述基于所述状态空间、所述动作空间、所述动力学方程、所述运动学方程以及预设的终局条件,构建无人机对抗仿真环境之后,所述方法还包括:获取在所述无人机对抗仿真环境中三维空间下的第一无人机与第二无人机分别航向角、俯仰角以及滚旋角;基于所述航向角、所述俯仰角以及所述滚旋角,分别确定所述第一无人机的第一旋转矩阵与所述第二无人机的第二旋转矩阵;确定所述第二无人机位于所述第一无人机的第一机体坐标系下的相对坐标;基于所述相对坐标,将所述第二旋转矩阵转换为位于所述第一机体坐标系下的转换第二旋转矩阵;基于所述第一旋转矩阵与所述转换第二旋转矩阵,确定所述第一无人机与所述第二无人机之间的状态特征编码。

6、根据本专利技术提供的一种基于时空态势差分的无人机自主机动决策方法,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之后,所述方法还包括:初始化深度强化学习决策模型的执行策略网络、执行价值网络和经验缓冲区;将所述自主机动决策产生的样本存入所述经验缓冲区,得到采样经验数据;按照目标训练步数基于所述采样经验数据,对所述执行策略网络与所述执行价值网络进行优化,得到当前执行网络参数;基于所述当前执行网络参数,更新目标策略网络参数与目标价值网络参数,得到无人机博弈决策模型。

7、根据本专利技术提供的一种基于时空态势差分的无人机自主机动决策方法,在所述基于所述当前执行网络参数,更新目标策略网络参数与目标价值网络参数,得到无人机博弈决策模型之后,所述方法还包括:确定目标时间步内所述第二无人机相对于所述第一无人机的目标状态特征编码;将所述目标状态特征编码输入至所述无人机博弈决策模型,得到所述无人机博弈决策模型输出的针对所述第一无人机的目标自主机动决策。

8、本专利技术还提供一种基于时空态势差分的无人机自主机动决策装置,包括如下模块:第一获取模块,用于获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置,其中,所述第一无人机与所述第二无人机位于无人机对抗仿真环境中;第一确定模块,用于基于所述第一空间位置与所述第二空间位置,确定每个时间步下的所述第一无人机针对所述第二无人机攻击区距离的第一最短距离,以及所述第二无人机针对所述第一无人机攻击区的第二最短距离;第二确定模块,用于基于所述第一最短距离与所述第二最短距离,确定所述第一无人机与所述第二无人机之间的相对姿态值;第二获取模块,用于获取所述第一无人机与所述第二无人机之间的双方质心距离;第三确定模块,用于确定所述相对姿态值与修正系数的乘积,以及所述双方质心距离与所述第一无人机的最大攻击距离的差值;得分模块,用于将所述乘积与所述差值的平方的比值的双曲正切函数作为第一无人机的奖励反馈得分;第四确定模块,用于确定当前时间步下的所述第一无人机的当前奖励反馈得分,与上一时间步下的所述第一无人机的历史奖励反馈得分;第五确定模块,用于基于所述当前奖励反馈得分与所述历史奖励反馈得分,确定所述第一无人机的时空态势差分奖励函数,其中,所述时空态势差分奖励函数用于对所述自主机动决策进行正反馈或负反馈。

<本文档来自技高网...

【技术保护点】

1.一种基于时空态势差分的无人机自主机动决策方法,其特征在于,包括:

2.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,所述基于所述第一空间位置与所述第二空间位置,确定每个时间步下的所述第一无人机针对所述第二无人机攻击区距离的第一最短距离,包括:

3.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之前,所述方法还包括:

4.根据权利要求3所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述基于所述状态空间、所述动作空间、所述动力学方程、所述运动学方程以及预设的终局条件,构建无人机对抗仿真环境之后,所述方法还包括:

5.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之后,所述方法还包括:

6.根据权利要求5所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述基于所述当前执行网络参数,更新目标策略网络参数与目标价值网络参数,得到无人机博弈决策模型之后,所述方法还包括:

7.一种基于时空态势差分的无人机自主机动决策装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于时空态势差分的无人机自主机动决策方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于时空态势差分的无人机自主机动决策方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于时空态势差分的无人机自主机动决策方法。

...

【技术特征摘要】

1.一种基于时空态势差分的无人机自主机动决策方法,其特征在于,包括:

2.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,所述基于所述第一空间位置与所述第二空间位置,确定每个时间步下的所述第一无人机针对所述第二无人机攻击区距离的第一最短距离,包括:

3.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之前,所述方法还包括:

4.根据权利要求3所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述基于所述状态空间、所述动作空间、所述动力学方程、所述运动学方程以及预设的终局条件,构建无人机对抗仿真环境之后,所述方法还包括:

5.根据权利要求1所述的基于时空态势差分的无人机自主机动决策方法,其特征在于,在所述获取第一无人机在执行自主机动决策后的第一空间位置与第二无人机的第二空间位置之后...

【专利技术属性】
技术研发人员:聂祥丽傅俊锜乔红
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1