System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于流动控制设计领域,尤其涉及一种基于迁移学习的流动主动控制增效设计方法。
技术介绍
1、不稳定分离流动是航空航天、风工程、海洋工程、能源动力等众多领域经常会遇见的一种流动现象。这些分离流的流动结构很复杂,流动具有强烈的非定常、非线性特性,并会造成许多不利的影响。流动控制是消除分离流动上述不利影响的有效手段。根据是否需要能量注入,流动控制可以分为被动和主动等控制方式。被动控制因其控制参数不可更改而存在非设计工况条件下失效或反效的风险。因此针对复杂流动控制问题,主动控制更具优势,尤其是具有反馈回路的主动闭环控制。
2、基于深度强化学习的主动控制设计方法具有强非线性,适用于复杂流动主动闭环控制设计。现有技术中,无论是通过仿真模拟还是实验验证,该方法均已积累了大量可成功实施的案例。但是训练一个基于强化学习的控制律设计模型需要大量的仿真或实验数据,十分耗时,且该控制律设计模型与控制对象强相关。控制对象几何边界发生变化,或是其流动特性改变时均需要重新训练控制律设计模型。因此如何提高基于强化学习的主动控制律设计效率,是解决这种控制律设计方法难以应用于工程实际问题的关键。
技术实现思路
1、针对现有技术中的上述不足,本专利技术提供的一种基于迁移学习的流动主动控制增效设计方法,解决了控制律设计模型需要大量的仿真或实验数据以及控制律设计模型与控制对象强相关的问题。
2、为了达到以上目的,本专利技术采用的技术方案为:一种基于迁移学习的流动主动控制增效设计方法,包括以下
3、s1、将第一翼型最优主动舵面控制模型的所有网络参数共享给初始第二翼型主动舵面控制模型进行初始化,并将已初始化的第二翼型主动舵面控制模型与流场求解器进行交互,得到翼型绕流对于第二翼型主动舵面控制模型指导的舵面动作的相关响应数据,并计算相应的奖励值,组成初始数组存入经验回放池中;
4、s2、响应于经验回放池中数组数超过预设采样数据量,随机采样预设采样数据量组数据,并计算第二翼型主动舵面控制模型的第一评价网络、第二评价网络、第一评价网络的目标网络以及第二评价网络的目标网络的评价值,利用时序差误差的计算方式以及更新策略更新第一评价网络和第二评价网络的参数;
5、s3、更新第一评价网络和第二评价网络预设次数后,引入迁移学习更新策略网络,冻结策略网络中除最后一层隐藏层以外的隐藏层的全部参数,更新策略网络中最后一层隐藏层上各神经元的权重和偏置,根据更新的第一评价网络、第二评价网络以及策略网络,得到第二翼型最优主动舵面控制模型,并将第二翼型最优主动舵面控制模型用于流动主动控制并用于流动主动控制,完成流动主动控制增效设计。
6、本专利技术的有益效果为:本专利技术采用迁移学习用于提升基于深度强化学习的主动控制设计模型的训练效率,实现了变翼型最优主动控制设计模型的快速训练;本专利技术完成了从第一最优主动舵面控制模型到第二翼型最优主动舵面控制模型的迁移,本专利技术使用迁移学习的方法不需要改变奖励函数中各控制目标间的权重组合,也不需要调整学习率的变化规律,将模型训练所需回合数降低至不引入迁移学习的模型训练所需回合数的百分之五十,降低了权重寻优和流场计算所需的时间。
7、进一步地,所述s1包括以下步骤:
8、s101、选用预先设定的弦向长度的尾缘舵面作为控制装置,对第一翼型主动舵面控制模型的策略网络、策略网络的目标网络、第一评价网络、第二评价网络、第一评价网络的目标网络以及第二评价网络的目标网络进行随机初始化;
9、s102、利用双延迟深度确定性策略梯度算法对第一翼型主动舵面控制模型进行优化,得到第一翼型最优主动舵面控制模型,并将第一翼型最优主动舵面控制模型中各网络的所有参数共享给初始第二翼型主动舵面控制模型进行初始化;
10、s103、设置奖励函数,并根据第一翼型最优主动舵面控制模型,对奖励函数中各目标的权重组合进行设置;
11、s104、将第二翼型主动舵面控制模型指导的尾缘舵面控制与流场求解器进行交互,并将当前时刻的流场信息输入至第二翼型主动舵面控制模型的策略网络,得到下一时刻的舵面偏转量,并根据动网格实现翼型外形的变化,得到二维翼型的响应数据;
12、s105、根据二维翼型的响应数据计算得到此次舵面动作的奖励值,将当前时刻的流场信息、下一时刻的舵面偏转量、二维翼型的响应数据以及此次舵面动作的奖励值组成初始数组,并存入经验回放池。
13、再进一步地,所述奖励函数的表达式如下:
14、;
15、;
16、;
17、;
18、其中,表示奖励函数,表示翼型升力系数响应的脉动幅值,表示相邻时刻翼型升力系数响应的变化量,表示尾缘舵面偏转幅值,、、均表示权重参数,表示升力系数,表示至时刻翼型升力系数的平均值,表示升力系数的改变量,表示至时刻主动舵面偏转幅值的平均值。
19、上述进一步方案的有益效果为:本专利技术设置奖励函数,提高了第二翼型最优主动舵面控制模型的迁移,实现了翼型模型迁移至其他翼型时不需要更改奖励函数及学习率的相关设置。
20、再进一步地,所述s2包括以下步骤:
21、s201、根据预设采样数据量,从经验回放池中随机采样预设数量的数组,将数组中二维翼型的响应数据带入策略网络的目标网络中得到目标控制律,并将数组中二维翼型的响应数据以及目标控制律带入第一评价网络的目标网络和第二评价网络的目标网络中分别得到第一目标评价值以及第二目标评价值;
22、s202、选择第一目标评价值和第二目标评价值中最小的量并乘以折扣系数作为评价网络的更新目标;
23、s203、输入数组中当前时刻的流场信息、下一时刻的舵面偏转量以及二维翼型的响应数据至第一评价网络和第二评价网络中,分别得到当前时刻的第一评价值和当前时刻的第二评价值;
24、s204、计算评价网络的更新目标与当前时刻第一评价值和第二评价值之间的差值,并通过梯度优化最小化所述差值,响应于差值收敛得到第一评价网络的参数组合和第二评价网络的参数组合,并更新第一评价网络和第二评价网络。
25、再进一步地,所述评价网络的更新目标的表达式如下:
26、;
27、其中,表示评价网络的更新目标,表示第 k组舵面动作的奖励函数,表示折扣系数,表示第 i目标评价值,表示第 k+1组采样数据中的流场信息,表示以第 k+1组采样数据中的流场信息为输入时策略网络输出的动作值,和均表示目标网络参数,表示参数采取截断措施的正态分布,表示正态分布,表示正态分布的方差,表示截断正态分布的幅值。
28、再进一步地,所述第一评价网络的参数组合和第二评价网络的参数组合的表达式如下:
29、;
30、其中, 本文档来自技高网...
【技术保护点】
1.一种基于迁移学习的流动主动控制增效设计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述S1包括以下步骤:
3.根据权利要求2所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述奖励函数的表达式如下:
4.根据权利要求2所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述S2包括以下步骤:
5.根据权利要求4所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述评价网络的更新目标的表达式如下:
6.根据权利要求4所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述第一评价网络的参数组合和第二评价网络的参数组合的表达式如下:
7.根据权利要求4所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述S3包括以下步骤:
8.根据权利要求7所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述梯度优化的表达式如下:
【技术特征摘要】
1.一种基于迁移学习的流动主动控制增效设计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述s1包括以下步骤:
3.根据权利要求2所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述奖励函数的表达式如下:
4.根据权利要求2所述的基于迁移学习的流动主动控制增效设计方法,其特征在于,所述s2包括以下步骤:
5.根据权利要求4所述的基于迁移学...
【专利技术属性】
技术研发人员:高传强,杨新宇,任凯,张伟伟,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。