一种基于指针网络与深度强化学习的多目标威胁评估方法技术

技术编号：42061065 阅读：3 留言：0更新日期：2024-07-19 16:46

本发明专利技术属于空中目标威胁评估技术领域，公开了一种基于指针网络与深度强化学习的多目标威胁评估方法，包括：S1.构建基于指针网络的威胁评估模型，并采用强化学习算法以及基于历史战场态势信息所生成的历史数据对所述威胁评估模型进行更新训练；S2.以基于实时战场态势信息所生成的实时数据作为更新训练好的威胁评估模型的输入，输出得到威胁评估结果；其中，基于战场态势信息所生成的数据包括武器要素节点属性、多个目标的属性以及多个目标的相关评估特征。综上，本发明专利技术能够同时考虑了多个目标和多个武器的相关属性，具体包括目标的速度与各武器要素节点的相对位置等，由此能更全面的评估战场态势，从而避免同一批次的多个目标出现相同威胁等级的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于空中目标威胁评估，具体涉及一种基于指针网络与深度强化学习的多目标威胁评估方法。

技术介绍

1、空中目标威胁评估是武器分配智能辅助决策的关键技术之一，实时准确评估来袭空中目标的威胁程度，能够为作战指挥员掌握空间作战态势、制定作战计划方案、动态调整拦截火力单元作战部署等提供实时、科学的参考。

2、空中目标威胁评估是一种基于目标状态的多属性、多指标动态决策问题，相关技术中通常基于空中来袭目标的自身属性如类型、位置、速度等情况对空中来袭目标进行威胁评估，传统的威胁评估主要分为建立评估指标体系、确定指标权重、计算威胁度三个步骤，例如：

3、中国专利cn115860558a中提供了一种熵权法与dare法相结合的群目标威胁评估方法,具体利用主客观权值相组合的方式实现多目标威胁排序，应用于低空多目标威胁评估场景，但是该方法主要基于静态评估，一旦目标各个指标的权重确定后，各指标权重不会根据目标状态随着时间的变化而动态调整，然而实际作战环境大多存在变化剧烈的特性，因此容易出现目标威胁评估结果不准确的现象，影响火力单元的作战部署；

4、中国专利cn116226835a中提供了一种防空威胁控制方法，具体基于被保卫目标价值和空中目标信息对空中目标进行威胁估计，虽然该方法更加全面的考虑了被保卫目标价值，但该方法是基于层次分析法对各威胁度因素进行估计量化，其量化结果为多个等级，由此若同时量化大量空中目标的威胁度，对于同一批次目标的速度、进攻意图则可能会出现相同的量化结果，即多个目标的威胁等级相同，进而无法实现

技术实现思路

1、鉴于此，为解决上述
技术介绍
中所提出的问题，本专利技术的目的在于提供一种基于指针网络与深度强化学习的多目标威胁评估方法。该方法首先基于目标与保护要地相对欧氏距离、目标线速度、目标相对保护要地的进攻方位角、最长连续处于雷达探测范围内时长、剩余飞行时间、目标相对发射车的平均航路捷径等信息构建多目标多属性威胁评估模型，然后利用指针网络处理得出多目标序列结果，以此使得威胁评估结果能够随战场态势变化而进行动态调整，并有效提高复杂战场态势下威胁评估的准确性。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于指针网络与深度强化学习的多目标威胁评估方法，包括：

4、s1.构建基于指针网络的威胁评估模型，并采用强化学习算法以及基于历史战场态势信息所生成的历史数据对所述威胁评估模型进行更新训练；

5、s2.以基于实时战场态势信息所生成的实时数据作为更新训练好的威胁评估模型的输入，输出得到威胁评估结果；

6、其中，基于战场态势信息所生成的数据包括武器要素节点属性、多个目标的属性以及多个目标的相关评估特征。

7、优选的，更新训练所述威胁评估模型包括：

8、初始化所述威胁评估模型的可训练参数；

9、利用所述历史数据对威胁评估模型的训练获取可训练参数的更新策略；

10、通过奖励函数对所述更新策略进行评价计算，由策略梯度得到更新权重；

11、基于所述更新策略与所述更新权重对所述威胁评估模型的可训练参数进行综合更新。

12、优选的，所述奖励函数的表达式为：rt＝∑irthr,i+ralloc,i；式中，rthr,i表示目标相对威胁度奖励，ralloc,i表示武器相对分配效率。

13、优选的，所述目标相对威胁度奖励rthr,i的表达式为rthr,i＝f(valuei)。

14、优选的，所述武器相对分配效率ralloc,i的表达式为ralloc,i＝μ·(bool(alloci)·ri),t＝t1；且alloci为是否分配了武器进度对应目标的拦截，ri表示在t＝t1时刻成功分配武器的奖励值。另外，若在t＝t1时刻未分配武器，则ralloc,i＝-valuei，表示对评估结果的惩罚值。

15、优选的，所述威胁评估模型包括基于长短时记忆神经网络结构的所构造的编码器和解码器，且所述编码器和解码器的维度均表示为dn·dlstm，其中dlstm为隐藏层维度。

16、优选的，还包括：将基于战场态势信息所生成的任意一个数据映射成为一个固定维数d的向量且n个数据组合形成输入序列

17、优选的，还包括通过所述编码器对所述输入序列进行无序编码：

18、

19、

20、式中，u为编码后的向量，为第i个数据由编码器编码得到的隐状态，θenc为编码器的可训练参数。

21、优选的，还包括通过所述解码器对编码后的向量u进行解码：

22、

23、

24、

25、式中，表示第j个编码后的向量由解码器解码得到的隐状态，softmax(`)表示所述解码器中最后一层为softmax函数的前馈神经网络，θdec和θo表示所述解码器的可训练参数，ωj表示第j个数据映射的向量。

26、优选的，还包括基于注意力机制进行所述解码器中任意一个隐状态输出与编码器所有输出之间的注意力计算：

27、

28、

29、αj＝softmax(ej)；

30、式中，{wk,wq,v}为注意力机制的可训练参数，tanh为双曲正切激活函数，为第i个数据的状态表示，若该数据未被选择取1，否则取0；aj为第j次选择各个数据的概率权重。

31、本专利技术与现有技术相比，具有以下有益效果：

32、在本专利技术的多目标威胁评估方法中，基于指针网络构建多目标威胁评估模型，并采用无监督学习的方式进行模型的持续训练，以此方便根据战场态势变化动态调整模型参数。另外，该模型在评估过程中同时考虑了目标与保护要地相对欧氏距离、目标线速度、目标相对保护要地的进攻方位角、最长连续处于雷达探测范围内时长、剩余飞行时间、目标相对发射车的平均航路捷径等信息，由此能够更全面的进行战场态势评估，避免同一批次的多个目标出现相同威胁等级的问题，并保证威胁评估结果能够随战场态势变化而进行动态调整，进而有效提高复杂战场态势下威胁评估的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，包括：

2.根据权利要求1所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，更新训练所述威胁评估模型包括：

3.根据权利要求2所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，所述奖励函数的表达式为：

4.根据权利要求3所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于:

5.根据权利要求4所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于:

6.根据权利要求5所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于：所述威胁评估模型包括基于长短时记忆神经网络结构的所构造的编码器和解码器，且所述编码器和解码器的维度均表示为dn·dlstm，其中dlstm为隐藏层维度。

7.根据权利要求6所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，还包括：将基于战场态势信息所生成的任意一个数据映射成为一个固定维数d的向量且n个数据组合形成输入序列

8.根据权利

9.根据权利要求8所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，还包括通过所述解码器对编码后的向量u进行解码：

10.根据权利要求9所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，还包括基于注意力机制进行所述解码器中任意一个隐状态输出与编码器所有输出之间的注意力计算：

...

【技术特征摘要】

1.一种基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，包括：

2.根据权利要求1所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，更新训练所述威胁评估模型包括：

3.根据权利要求2所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于，所述奖励函数的表达式为：

4.根据权利要求3所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于:

5.根据权利要求4所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于:

6.根据权利要求5所述的基于指针网络与深度强化学习的多目标威胁评估方法，其特征在于：所述威胁评估模型包括基于长短时记忆神经网络结构的所构造的编码器和解码器，且所述编码器和解码器的维度均表示为...

【专利技术属性】
技术研发人员：王骄，陈思颖，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人