【技术实现步骤摘要】
一种协同制导律模型的预训练方法、训练方法和系统
[0001]本申请涉及控制的
,尤其是涉及一种协同制导律模型的预训练方法、训练方法和系统。
技术介绍
[0002]无人机在对抗的过程中,需要根据敌机的位置、状态和策略,不断调整自己的行动策略,使能按一定的路径或轨迹准确打击到敌方。当多个无人机对抗或发射多个导弹时,需要共同合作完成对目标的追踪和打击。可以通过多弹时间协同制导律,即以主弹引导,从弹跟踪的方式,引入剩余时间协同补偿指令,实现所有从弹跟随主动对目标的时间协同攻击。
[0003]相关技术中,直接利用经验池中的样本进行神经网络训练,但是训练过程需要大量的数据,在线的模型训练耗时较长。
技术实现思路
[0004]本申请目的是提供一种协同制导律模型的预训练方法、训练方法和系统,能够提高训练效率。
[0005]本申请的上述申请目的一是通过以下技术方案得以实现的:第一方面,提供了一种协同制导律模型的预训练方法,包括:获取从弹的预训练样本,其中,每一预训练样本包括:第一时刻环境状态、第一时刻对应的第一奖励值、第二时刻对应的第二奖励值和第三时刻环境状态;获取预训练模型,所述预训练模型包括:所述预训练网络和预训练目标网络,所述预训练网络包括:预训练行动网络和预训练评价网络,所述预训练目标网络包括:预训练行动目标网络和预训练评价目标网络;根据所述预训练样本,对所述预训练模型进行强化学习训练,直到达到停止条件,得到预训练协同制导律模型,所述预训练协同制导律模型中的预训练评价网络的网络参数和预训练 ...
【技术保护点】
【技术特征摘要】
1.一种协同制导律模型的预训练方法,其特征在于,包括:获取从弹的预训练样本,其中,每一预训练样本包括:第一时刻环境状态、第一时刻对应的第一奖励值、第二时刻对应的第二奖励值和第三时刻环境状态;获取预训练模型,所述预训练模型包括:所述预训练网络和预训练目标网络,所述预训练网络包括:预训练行动网络和预训练评价网络,所述预训练目标网络包括:预训练行动目标网络和预训练评价目标网络;根据所述预训练样本,对所述预训练模型进行强化学习训练,直到达到停止条件,得到预训练协同制导律模型,所述预训练协同制导律模型中的预训练评价网络的网络参数和预训练评价目标网络的网络参数作为协同制导律模型训练过程中的待训练评价网络的初始网络参数和待训练评价目标的初始网络参数。2.根据权利要求1所述的协同制导律模型的预训练方法,其特征在于,所述获取从弹的预训练样本,包括:获取第一时刻环境状态,根据所述第一时刻环境状态利用协同制导律得到第一时刻对应的动作值;根据所述第一时刻对应的动作值,通过训练环境进行仿真,得到第二时刻环境状态和第一时刻对应的奖励值;根据所述第二时刻环境状态和协同制导律,得到第二时刻对应的第二动作值;根据所述第二时刻对应的动作值通过训练环境进行仿真,得到第三时刻环境状态和第二时刻对应的第二奖励值。3.根据权利要求2所述的协同制导律模型的预训练方法,其特征在于,所述根据所述第一时刻对应的动作值,通过训练环境进行仿真,得到第二时刻环境状态和第一时刻对应的奖励值,包括:根据所述第一时刻对应的动作值通过训练环境进行仿真,得到第二时刻环境状态;根据所述第二时刻环境状态确定第二时刻下导弹对应的前置角、导弹与目标的相对距离和导弹和目标的相对速度,导弹包括主弹和从弹;当导弹命中时,根据主弹命中时刻和从弹命中时刻确定所述第一时刻对应的第一奖励值;当导弹未命中时,根据导弹对应的前置角、导弹与目标的相对距离和导弹和目标的相对速度,确定主弹对应的预测命中时刻和从弹对应的预测命中时刻;并根据主弹对应的预测命中时刻和从弹对应的预测命中时刻,确定所述第一时刻对应的第一奖励值。4.根据权利要求1所述的协同制导律模型的预训练方法,其特征在于,所述根据所述预训练样本,对所述预训练模型进行强化学习训练,直到达到停止条件,得到预训练协同制导律模型,包括:根据所述第一时刻环境状态和预训练网络,得到评价值;根据所述第三时刻环境状态利用预训练目标网络,得到初始评价目标值;根据所述初始评价目标值、所述第一奖励值和所述第二奖励值,确定评价目标值;根据所述评价目标值、所述评价值和预训练样本对预训练模型进行迭代训练,直至达到停止条件得到预训练协同制导律模型。
5.根据权利要求4所述的协同制导律模型的预训练方法,其特征在于,所述根据所述初始评价目标值、所述第一奖励值和所述第二奖励值,确定评价目标值,包括:根据所述初始评价目标值、衰减折扣系数和所述第二奖励值,确定中间评价目标值;根据所述中间评价目标值、所述衰减折扣系数和所述第一奖励值,确定所述评价目标值。6.根据权利要求4所述的协同制导律模型的预训练方法,其特征在于,所述根据所述评价目标值、所述评价值和预训练样本对预训练模型进行迭代训练,直至达到停止条件得到预训练协同制导律模型,包括:在完成预设数量的样本的预训练模型的计算后,根据预设数量的样本对应的所述评价目标值、所述评价值,确定评价网络...
【专利技术属性】
技术研发人员:路鹰,赵大海,胡一帆,韩特,付斌,邱璐莹,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。