一种基于强化学习的打击序列智能规划方法技术

技术编号:38318723 阅读:20 留言:0更新日期:2023-07-29 09:00
本发明专利技术提供一种基于强化学习的打击序列智能规划方法,包括以下步骤:S1、建立大规模交战序列规划问题的PPO强化学习网络模型;S2、根据建立的所述网络模型进行模型训练,生成大规模交战序列规划问题的PPO强化学习网络模型结果;S3、应用得到的训练结果求解大规模交战序列规划问题,并根据应用场景变化进行大规模交战序列规划问题PPO强化学习网络的优化,完成所述PPO强化学习网络模型的自学习与在线升级。本发明专利技术的基于强化学习的打击序列智能规划方法,通过设计大规模交战序列规划问题强化学习求解环境的状态、动作和奖励,实现了大规模交战序列规划问题的快速、高效、自动求解。自动求解。自动求解。

【技术实现步骤摘要】
一种基于强化学习的打击序列智能规划方法


[0001]专利技术涉及军事决策
,特别涉及一种基于强化学习的打击序列智能规划方法、电子设备和存储介质。

技术介绍

[0002]现有技术中,导弹、火箭弹、火炮等武器发射后按预定航路空域飞行,由于不同发射点出发的武器可能存在航路交叉导致的武器碰撞或互扰等危险事件的发生,因此,如何合理规划武器交战序列一直是武器作战筹划须解决的关键问题之一。武器交战序列规划,主要是针对多种、多个武器打击单个或多个目标,合理规划每个武器的发射时间序列,在满足武器发射安全、飞行安全等约束条件的同时,在尽可能短的时间窗口内完成全部武器发射,提高武器快速反应能力和打击效能。而大规模作战条件下,因发射武器种类多、数量多、打击目标多、发射点位和目标点位分布散,导致大规模作战条件下的武器交战序列规划问题变量规模大、约束条件复杂,问题求解难度巨大,目前尚无有效解决方法。
[0003]该问题的求解模型可近似看作一种大规模的ATSP(非对称旅行商问题)。以往对非对称旅行商问题的求解方法主要包括精确算法、近似方法两大类。其中,精确算法主要包括分支界定法、逐次最短法或动态规划法等,这些算法理论上能够获得问题的精确最优解,通常会和特殊设计的启发式方法结合使用来降低求解的时间复杂度,是大部分求解器的最基本方法,能在小规模问题上取得较好的效果,但是当问题规模扩大时,算法将消耗巨大的计算量,难以求解大规模问题,无法用于大规模交战序列问题的求解;近似方法主要包括近似算法和启发式算法,近似算法以贪心算法、局部搜索算法和序列算法等为主要代表,启发式算法以粒子群算法、禁忌搜索算法、蚁群算法等为主要代表,这些方法虽然能在一定时间内给出较好的可行解,但对大规模问题的搜索时间慢、易陷入局部最优,且算法随机性强难以工程应用,也无法满足大规模交战序列问题的求解使用需求。
[0004]随着深度强化学习技术的发展,在围棋、机器人等领域得到了成功应用,并广泛用于各个行业领域的探索实践,在这一背景下,基于深度强化学习的组合优化方法因其具有求解速度快、模型泛化能力强等优势,逐步成为近年来的研究热点,涌现出了一系列相关研究和案例,为大规模交战序列问题的求解提供了一条可行的新思路。

技术实现思路

[0005]为了解决现有技术存在的问题,本专利技术提供一种基于强化学习的打击序列智能规划方法,通过设计大规模交战序列规划问题强化学习求解环境的状态、动作和奖励,实现了大规模交战序列规划问题的快速、高效、自动求解。
[0006]为实现上述目的,本专利技术提供的一种基于强化学习的打击序列智能规划方法,包括以下步骤:
[0007]S1、建立交战序列规划的PPO强化学习网络模型;
[0008]S2、对建立的网络模型进行模型训练,得到交战序列规划的PPO强化学习网络模型
的训练结果;
[0009]S3、应用得到的训练结果进行交战序列规划,并根据应用场景变化进行交战序列规划PPO强化学习网络的优化,完成所述PPO强化学习网络模型的自学习与在线升级。
[0010]进一步地,在所述步骤S1之前,还包括,
[0011]设计大规模交战序列规划问题的PPO强化学习算法求解环境的当前状态S
t
,t表示当前时刻;
[0012]设计大规模交战序列规划问题的PPO强化学习算法求解环境的动作M
t

[0013]设计大规模交战序列规划问题的PPO强化学习算法求解环境的奖励评价函数。
[0014]进一步地,在所述设计大规模交战序列规划问题的PPO强化学习算法求解环境的当前状态S
t
的步骤中,包括,
[0015]a)武器编号N
i
:整型,表示求解问题中每个武器的代号,范围为[1,N]的整数,N≤500;
[0016]b)发射点编号P
i
:整型,表示求解问题中武器N
i
所在发射点的代号,范围为[1,K],K≤10;
[0017]c)发射点优先级次序p
i
:整型,表示求解问题中发射点P
i
的发射优先级顺序,范围为[1,K],K≤10,1表示发射优先级最低的发射点,10表示发射优先级最高的发射点;
[0018]d)武器发射时间间隔s
ij
;整型,表示求解问题中武器N
i
和N
j
之间的最小发射时间间隔要求,s
ij
表示从编号为N
i
的武器发射后经过该时间间隔编号为N
j
的武器才可以发射,s
ji
表示从编号为N
j
的武器发射后经过该时间间隔编号为N
i
的武器才可以发射;
[0019]e)当前保存武器发射次序列表Q
t
:列表类型,表示求解问题中对应特定当前状态S
t
下已经生成的武器发射序列;
[0020]f)武器可选择标签w
i
:整型,表示求解问题中武器N
i
在当前状态S
t
下是否已发射并加入至当前保存武器发射次序列表Q
t
中,取值为0、1,0表示该武器尚未发射,1表示该武器已经完成发射。
[0021]进一步地,在设计大规模交战序列规划问题的PPO强化学习算法求解环境的动作M
t
的步骤中,包括,
[0022]M
t
=i,i∈[1,N][0023]其中,M
t
为武器发射动作,i为区间[1,N]的离散整数值,表示当前状态下选择了编号为N
i
的武器发射并加入当前保存武器发射次序列表Q
t
,N表示问题域中武器的最大数量。
[0024]进一步地,在所述设计大规模交战序列规划问题的PPO强化学习算法求解环境的奖励评价函数的步骤中,包括,
[0025]构建基于约束条件泛化的大规模交战序列规划问题求解奖励评价函数R:
[0026][0027]其中,R为奖励函数的奖励值;w0为武器发射用时评价因子权重,为武器发射
用时评价因子;w1为发射点综合优先级评价因子权重,为发射点综合优先级评价因子;w2为泛化约束评价因子权重,为泛化约束评价因子,实现对多个不确定性复杂约束的同时评价奖励;根据问题规模与当前状态环境自定义设置w0、w1、w2;N
t
为当前状态环境下已经完成发射的武器数量;T
t
表示当前状态环境下从第1枚到第N
t
枚武器的发射用时;p
i
表示每个发射点的优先级等级,优先等级越高p
i
数值越大;W
i
为每个发射点优先级所占的权重,n为全部发射点总数量;N
k
表示当前求解问题中相关约束的数量;n
k
表示泛化约束的奖励值,若当前状态环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的打击序列智能规划方法,其特征在于,包括如下步骤:S1、建立交战序列规划的PPO强化学习网络模型;S2、对建立的网络模型进行模型训练,得到交战序列规划的PPO强化学习网络模型的训练结果;S3、应用得到的训练结果进行交战序列规划,并根据应用场景变化进行交战序列规划PPO强化学习网络的优化,完成所述PPO强化学习网络模型的自学习与在线升级。2.根据权利要求1所述的基于强化学习的打击序列智能规划方法,其特征在于,在所述步骤S1之前,还包括,设计大规模交战序列规划问题的PPO强化学习算法求解环境的当前状态S
t
,t表示当前时刻;设计大规模交战序列规划问题的PPO强化学习算法求解环境的动作Mt;设计大规模交战序列规划问题的PPO强化学习算法求解环境的奖励评价函数。3.根据权利要求2所述的基于强化学习的打击序列智能规划方法,其特征在于,在所述设计大规模交战序列规划问题的PPO强化学习算法求解环境的当前状态S
t
的步骤中,包括,a)武器编号N
i
:整型,表示求解问题中每个武器的代号,范围为[1,N]的整数,N≤500;b)发射点编号P
i
:整型,表示求解问题中武器N
i
所在发射点的代号,范围为[1,K],K≤10;c)发射点优先级次序p
i
:整型,表示求解问题中发射点P
i
的发射优先级顺序,范围为[1,K],K≤10,1表示发射优先级最低的发射点,10表示发射优先级最高的发射点;d)武器发射时间间隔s
ij
;整型,表示求解问题中武器N
i
和N
j
之间的最小发射时间间隔要求,s
ij
表示从编号为N
i
的武器发射后经过该时间间隔编号为N
j
的武器才可以发射,s
ji
表示从编号为N
j
的武器发射后经过该时间间隔编号为N
i
的武器才可以发射;e)当前保存武器发射次序列表Q
t
:列表类型,表示求解问题中对应特定当前状态S
t
下已经生成的武器发射序列;f)武器可选择标签w
i
:整型,表示求解问题中武器N
i
在当前状态S
t
下是否已发射并加入至当前保存武器发射次序列表Q
t
中,取值为0、1,0表示该武器尚未发射,1表示该武器已经完成发射。4.根据权利要求3所述的基于强化学习的打击序列智能规划方法,其特征在于,在设计大规模交战序列规划问题的PPO强化学习算法求解环境的动作M
t
的步骤中,包括,M
t
=i,i∈[1,N]其中,M
t
为武器发射动作,i为区间[1,N]的离散整数值,表示当前状态下选择了编号为N
i
的武器发射并加入当前保存武器发射次序列表Q
t
,N表示问题域中武器的最大数量。5.根据权利要求2所述的基于强化学习的打击序列智能规划方法,其特征在于,在所述设计大规模交战序列规划问题的PPO强化学习算法求解环境的奖励评价函数的步骤中,包括,构建基于约束条件泛化的大规模交战序列规划问题求解奖励评价函数R:
其中,R为奖励函数的奖励值;w0为武器发射用时评价因子权重,为武器发射用时评价因子;w1为发射点综合优先级评价因子权重,为发射点综合优先级评价因子;w2为泛化约束评价因子权重,为泛化约束评价因子,实现对多个不确定性复杂约束的同时评价奖励;根据问题规模与当前状态环境自定义设置w0、w1、w2;Nt为当前状态环境下已经完成发射的武器数量;T
t
表示当前状态环境下从第1枚到第N
t
枚武器的发射用时;p
i
表示每个发射点的优先级等级,优先等级越高p
i
数值越大;W
i
为每个发射点优先级所占的权重,n为全部发射点总数量;N
k
表示当前求解问题中相关约束的数量;n
k
表示泛化约束的奖励值,若当前状态环境的解不能满足某一项泛化约束时,将其对...

【专利技术属性】
技术研发人员:许馨月王才红刘庆国杜林峰朱颖吕乃冰赵若帆贾思雨
申请(专利权)人:中国人民解放军九六九零一部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1