基于深度强化学习的空中加油机控制策略方法技术

技术编号:38682742 阅读:13 留言:0更新日期:2023-09-02 22:55
本发明专利技术涉及空中加油领域,具体的说是基于深度强化学习的空中加油机控制策略方法,定义飞行器初始状态作为当前状态,飞行器状态信息与初始控制策略输入飞行器模型,解算下一状态信息,利用下一状态信息计算奖励值,若奖励大于设置的奖励阈值,训练完成,若不满足,转至步骤四,通过贝叶斯神经网络模型快速定义条件分布模型,将环境不确定性引入控制决策序列,提高决策模型对于不确定状态下的控制性能,本发明专利技术复制多个智能体形成多个采集工人,在不同初始状态下同时采集多样数据,随后利用多组数据综合更新飞行器的动作策略,设置的奖惩机制更符合人类摸索解决问题的思维,在智能体学习过程中能够实时给予指导信息,该方式能够提升训练效率。练效率。练效率。

【技术实现步骤摘要】
基于深度强化学习的空中加油机控制策略方法


[0001]本专利技术涉及空中加油
,具体说的是基于深度强化学习的空中加油机控制策略方法。

技术介绍

[0002]现代空中加油机和空中加油技术已成为增强航空兵机动能力与打击能力的重要措施,该技术是新型作战模式下的增强补充,能够显著提升战斗机的续航能力,在战略或战术航空兵部队中具有极其重要的支援作用。其中,无人机空中加油技术凭借低成本高性价比的作战模式正在成为智能无人化战争中的重要组成部分,该模式能够提升作战单位在复杂场景下长航时的作战任务,包括美国德莱登飞行研究中心(DFRC)、美国空军技术研究所、雷神公司、瑞士美国航空等高级研究机构均有相应的无人空中加油技术及系统研制项目。
[0003]我国无人机空中加油项目起步较晚,但凭借中国自主研发的枭龙、彩虹等系列无人机正在进行相关技术的攻关研发,但是在使用的时候无法实现空中加油中的对加油机的高度和速度进行低温跟踪。

技术实现思路

[0004]针对现有技术中的问题,本专利技术提供了基于深度强化学习的空中加油机控制策略方法。
[0005]本专利技术解决其技术问题所采用的技术方案是:一种基于数据总线的数据融合处理系统,步骤一:定义飞行器初始状态作为当前状态;
[0006]步骤二:飞行器状态信息与初始控制策略输入飞行器模型,解算下一状态信息;
[0007]步骤三:利用下一状态信息计算奖励值,若奖励大于设置的奖励阈值,训练完成,若不满足,转至步骤四;
[0008]步骤四:采集状态信息、策略信息、奖励信息存入经验池;
[0009]步骤五:运行分布式近端优化策略输出策略梯度;
[0010]步骤六:计算策略的梯度下降;
[0011]步骤七:利用梯度下降更新神经网络;
[0012]步骤八:神经网络输出动作策略,转至步骤二。
[0013]具体的,所述步骤二的具体流程如下:通过环境模型与真实环境出现较大偏差后,决策模型与环境模型交互产生的训练数据将出现误差,随之决策模型也将产生较大误差,通过贝叶斯神经网络将环境不确定性引入控制决策序列,提高决策模型对于不确定状态下的控制性能。
[0014]具体的,所述步骤三的具体流程如下:定高巡航奖励函数设计;且所述具体流程如下:位置奖惩函数;姿态奖惩函数。
[0015]具体的,所述步骤四具体流程如下:跟环境交互;采样并收集训练样本;计算模型的梯度并存储梯度;向全局更新梯度传输当前梯度。
[0016]具体的,所述运行分布式近端优化策略输出策略梯度通过经典强化学习算法只利用单个智能体与环境交互产生训练数据,本专利技术复制多个智能体形成多个采集工人,在不同初始状态下同时采集多样数据,随后利用多组数据综合更新飞行器的动作策略。
[0017]具体的,所述步骤七在所有采样工人完成梯度传输后,使用全局梯度更新模型参数,过程将持续多次充分利用当前采集到的数据,利用神经网络的泛化性使模型充分理解数据。
[0018]具体的,所述位置奖惩函数在实现指定高度指定速度巡航过程中,所期望的高度误差和速度误差是趋向于零的,根据实际任务允许的误差进行设计,当高度与速度的误差小时,即可满足定高定速的要求;所述姿态奖惩函数在设计定高定速巡航时,未给一条期望的轨迹进行设计,而是通过给定期望的姿态角,通过姿态角度进行轨迹的约束。对角度也给予一定的奖惩,同时也考虑到角加速度的作用,在角度不发生变化是,角加速度应该保持在零。
[0019]一种基于数据总线的数据融合处理系统的使用方法,
[0020]第一步:首先定义飞行器初始状态作为当前状态,当飞行器状态信息与初始控制策略输入飞行器模型,开始解算下一状态信息,然后利用下一状态信息计算奖励值,若奖励大于设置的奖励阈值,训练完成,若不满足,转至步骤四开始下一步采集数据然后将进行经验累计;
[0021]第二步:此时运行分布式近端优化策略输出策略梯度,通过计算策略的梯度下降,然后利用梯度下降更新神经网络;
[0022]第三步:此时通过神经网络输出动作策略,转至步骤二,然后重复机制,直到奖励函数达标,即可以完成训练。
[0023]本专利技术的有益效果:本专利技术所述的基于深度强化学习的空中加油机控制策略方法,在使用时,通过贝叶斯神经网络模型快速定义条件分布模型,将环境不确定性引入控制决策序列,提高决策模型对于不确定状态下的控制性能,本专利技术复制多个智能体形成多个采集工人,在不同初始状态下同时采集多样数据,随后利用多组数据综合更新飞行器的动作策略,设置的奖惩机制更符合人类摸索解决问题的思维,在智能体学习过程中能够实时给予指导信息,该方式能够提升训练效率。
附图说明
[0024]下面结合附图和实施例对本专利技术进一步说明。
[0025]图1为本专利技术提供的基于深度强化学习的空中加油机控制策略方法的整体系统运行流程示意图;
[0026]图2为本专利技术提供的基于深度强化学习的空中加油机控制策略方法分布式框架图;
[0027]图3为本专利技术提供的基于深度强化学习的空中加油机控制策略方法的数据采集示意图。
具体实施方式
[0028]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结
合具体实施方式,进一步阐述本专利技术。
[0029]如图1

图3所示,本专利技术所述的一种基于数据总线的数据融合处理系统,步骤一:定义飞行器初始状态作为当前状态;
[0030]步骤二:飞行器状态信息与初始控制策略输入飞行器模型,解算下一状态信息;
[0031]步骤三:利用下一状态信息计算奖励值,若奖励大于设置的奖励阈值,训练完成,若不满足,转至步骤四;
[0032]步骤四:采集状态信息、策略信息、奖励信息存入经验池;
[0033]步骤五:运行分布式近端优化策略输出策略梯度;
[0034]步骤六:计算策略的梯度下降;
[0035]步骤七:利用梯度下降更新神经网络;
[0036]步骤八:神经网络输出动作策略,转至步骤二。
[0037]其中,所述步骤二的具体流程如下:通过环境模型与真实环境出现较大偏差后,决策模型与环境模型交互产生的训练数据将出现误差,随之决策模型也将产生较大误差,通过贝叶斯神经网络将环境不确定性引入控制决策序列,提高决策模型对于不确定状态下的控制性能,贝叶斯神经网络模型可定义为一个条件分布模型P(y|x,w),x为模型输入数据,w为神经网络权重向量,为了扩充决策面以更好地拟合数据,神经网络会引入偏置项。在拟合回归问题中,贝叶斯神经网络模型的权重参数将不再是一个确定的值,而是由两个可训练参数σ,μ所构成的高斯分布输出,与传统确定权重网络不同的是,贝叶斯估计求出w的后验分布户(w|D),而不限于argmax值。该方式能够将数据特性转化为概率模型,该网络层为神经网络的预测引入了不确定性。本专利技术使用交叉熵损失函数改进DNN算法收敛速度。对于每个样本数据来说,期望最小化下式:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据总线的数据融合处理系统,其特征在于,包括以下步骤:步骤一:定义飞行器初始状态作为当前状态;步骤二:飞行器状态信息与初始控制策略输入飞行器模型,解算下一状态信息;步骤三:利用下一状态信息计算奖励值,若奖励大于设置的奖励阈值,训练完成,若不满足,转至步骤四;步骤四:采集状态信息、策略信息、奖励信息存入经验池;步骤五:运行分布式近端优化策略输出策略梯度;步骤六:计算策略的梯度下降;步骤七:利用梯度下降更新神经网络;步骤八:神经网络输出动作策略,转至步骤二。2.根据权利要求1所述的一种基于数据总线的数据融合处理系统,其特征在于,所述步骤二的具体流程如下:通过环境模型与真实环境出现较大偏差后,决策模型与环境模型交互产生的训练数据将出现误差,随之决策模型也将产生较大误差,通过贝叶斯神经网络将环境不确定性引入控制决策序列,提高决策模型对于不确定状态下的控制性能。3.根据权利要求1所述的一种基于数据总线的数据融合处理系统,其特征在于,所述步骤三的具体流程如下:步骤3.1:定高巡航奖励函数设计;且所述步骤3.1的具体流程如下:(1)位置奖惩函数;(2)姿态奖惩函数。4.根据权利要求1所述的一种基于数据总线的数据融合处理系统,其特征在于,所述步骤四具体流程如下:(1)跟环境交互;(2)采样并收集训练样本;(3)计算模型的梯度并存储梯度;(4)向全局更新梯度传输当前梯度。5.根据权利要求1所述的一种基于数据总线的数据融合处理系统,其特征在于,所述运行分布式近端优化策略输出策略梯度通过经典强化学习算法只利用单个智能体与环境交互产生训练...

【专利技术属性】
技术研发人员:马先龙呼卫军孟中杰霍星宇全家乐
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1