一种基于强化学习的抑制球体升力波动的主动控制方法技术

技术编号:37532653 阅读:14 留言:0更新日期:2023-05-12 15:59
本发明专利技术涉及一种基于强化学习的抑制球体升力波动的主动控制方法,搭建三维球体绕流的流动环境,给出球体的升力波动求解公式;绕流环境当前时刻的反馈信号即升力波动F

【技术实现步骤摘要】
一种基于强化学习的抑制球体升力波动的主动控制方法


[0001]本专利技术属于流体力学、流动控制、机器学习领域,涉及一种基于强化学习的抑制球体升力波动的主动控制方法,有广泛的应用价值。

技术介绍

[0002]球体绕流是一种典型的三维流动,其流动状态可根据雷诺数的变化而产生丰富的变化。航行器或飞行器在运动过程中,时常会出现升力波动干扰的情况,影响其正常的运作。主动流动控制可以通过人为地向流场施加一定幅度的激励作用,实现调制流场结构的目的,从而达到控制目的。球体作为一种典型结构,对于球体的控制研究会推动对复杂结构如飞行器、航行器等的控制研究。而利用强化学习,还可以实现更为复杂的控制目标。
[0003]经现有技术检索,中国专利技术专利号为CN201120533048.0,专利技术名称为圆柱绕流升力抑制装置,它采用被动控制方式,在来流和圆柱之间添加了一个底面为等边三角形的直棱柱,能够在低雷诺数工况下有小抑制圆柱在流体中受到的升力。经技术检索,中国专利技术专利号为CN202110572871.0,专利技术名称为基于深度强化学习的抑制涡致振动的主动流动控制器及控制方法,该专利技术使用深度强化学习建立决策智能体,通过控制圆柱横流向对称的吹吸气装置,可以实现圆柱的振动抑制和减阻目标。
[0004]强化学习是一类学习、预测、决策的方法框架,可以很好地帮助自动化、最优化手动设计的策略,可以寻找主动控制系统的最优控制策略,广泛应用于控制领域。

技术实现思路

[0005]要解决的技术问题
[0006]为了避免现有技术的不足之处,本专利技术提出一种基于强化学习的抑制球体升力波动的主动控制方法,在于解决球形绕流问题下的升力扰动问题。该方法借助数值模拟结果,采用强化学习,即可实现闭环的主动流动控制,实现对于球体绕流的升力扰动抑制。
[0007]技术方案
[0008]一种基于强化学习的抑制球体升力波动的主动控制方法,其特征在于步骤如下:
[0009]步骤1:搭建流动三维球体绕流的流动环境,获得球体绕流的流动状态;
[0010]控制目标为抑制球体升力波动,高保真的三维球体绕流数据是控制的基础;
[0011]流动环境搭建使用数值计算的直接数值模拟DNS方法,核心求解器为格子Boltzmann方法LBM求解纳维

斯托克斯方程,控制方程如下:
[0012][0013][0014]其中,u是速度矢量,p是流场压力,v是流体的运动粘度,是向量微分算子;
[0015]采用浸没边界法对于曲面边界和结构运动的求解,F
IB
即为浸没边界法中边界处的受力;
[0016]球体的升力波动求解公式如下,
[0017][0018]其中:n是单位法向量,Γ为球面,μ是流体的动力粘度,是涡量;升力F
l
拆分为平均升力F
l
和升力波动F

l

[0019]步骤2、搭建用于实现主动流动控制的强化学习框架:
[0020]基于强化学习的主动流动控制框架中,绕流环境当前时刻的反馈信号即升力波动F

l
,与上一时刻的控制效果即奖励值,输入深度强化学习控制器,控制器输出用于控制绕流环境流场的动作信号即旋转参数;绕流环境流场接收到动作信号后执行旋转参数指令,再将信号的控制效果传入智能体,多次迭代,从而寻找到具有最优控制效果的旋转控制律;
[0021]所述控制器采用深度强化学习智能体,具有两套神经网络,动作器和评估器;两套网络构建起环境状态、动作与奖励之间为拟合关系,动作器和评估器同时接收到状态和奖励信号,评估器评估其控制效果即奖励值,动作器输出动作信号即旋转参数;
[0022]步骤3、强化学习框架中的智能体参数设置:
[0023]动作器与评估器的输入相同,均为流场当前时刻的升力波动F

l
和下一时刻的奖励函数;在每一次迭代中,一个DRL运行策略N次,并收集一个轨迹,即一系列的状态

行动

奖励的组合;
[0024]使用折扣奖励R
t
对行为控制,对行为下的升力波动F

l
进行计算:
[0025]R
t
=∑
t

>t
γ
t
′‑
t
r
t

[0026]其中r
t

是控制策略更新前后的概率之比,γ是折扣系数;这个定义在计算奖励时给晚一些的奖励提供了更高的权重;
[0027]目标函数J
CRITIC
来最小化预测的折扣奖励和实际折扣奖励之间的差异:
[0028][0029][0030]其中是时间t的奖励,V

(s
t
)为预测的折扣奖励;
[0031]动作器网络的输出为动作分布,计算公式如下:
[0032][0033]其中是期望,ε是一个超参数;
[0034]在更新策略时选择Adam优化器;
[0035]步骤4使用强化学习获取最优的控制效果:
[0036]以步骤1中的流场环境提供实时环境反馈,以步骤2中的强化学习框架及步骤3中的智能体参数设置,对流场的升力波动进行闭环的主动流动控制;当奖励R
t
最大时,智能体认为是最优的控制律,训练会逐渐收敛,得到最优的控制效果,最终实现三维球体绕流的升力波动抑制。
[0037]所述动作器和评估器均使用多层感知机网络MLP,网络层数均为2层,动作器每层各50个神经元,评估器每层各80个神经元。
[0038]所述步骤3的超参数ε通常是0.1或0.2。
[0039]所述步骤3的扣系数γ通常为1。
[0040]有益效果
[0041]本专利技术提出的一种基于强化学习的抑制球体升力波动的主动控制方法,搭建三维球体绕流的流动环境,给出球体的升力波动求解公式;绕流环境当前时刻的反馈信号即升力波动F

l
,与上一时刻的控制效果即奖励值,输入闭环主动流动控制过程中的控制器,控制器输出被控制绕流环境流场的动作信号即旋转参数;绕流环境流场接收到动作信号即旋转参数之后执行旋转参数指令,再将信号的控制效果传入智能体,多次迭代,从而寻找到具有最优控制效果的旋转控制率。
[0042]有益效果:
[0043]1.本专利技术与传统控制方法相比,可以通过机器学习方法快速寻找到最优控制律,克服流体由于高维、非凸、非线性等属性而极难获取控制律的问题。
[0044]2.本专利技术智能体模块中利用强化学习方法,可以接收多个流场测点获得的反馈信息,经过在线计算,对不同位置作动器输出多个控制信号。通过合理设置动作网络和评价网络,可以实现抑制球体绕流升力波动这一复杂目标。本专利技术中实现升力波动抑制70%左右的抑制效果。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的抑制球体升力波动的主动控制方法,其特征在于步骤如下:步骤1:搭建流动三维球体绕流的流动环境,获得球体绕流的流动状态;控制目标为抑制球体升力波动,高保真的三维球体绕流数据是控制的基础;流动环境搭建使用数值计算的直接数值模拟DNS方法,核心求解器为格子Boltzmann方法LBM求解纳维

斯托克斯方程,控制方程如下:斯托克斯方程,控制方程如下:其中,u是速度矢量,p是流场压力,v是流体的运动粘度,是向量微分算子;采用浸没边界法对于曲面边界和结构运动的求解,FI
B
即为浸没边界法中边界处的受力;球体的升力波动求解公式如下,F
l
=∫
Γ
(

pn+μω
×
n)
·
n
y
dΓ其中:n是单位法向量,Γ为球面,μ是流体的动力粘度,是涡量;升力F
l
拆分为平均升力F
l
和升力波动F

l
;步骤2、搭建用于实现主动流动控制的强化学习框架:基于强化学习的主动流动控制框架中,绕流环境当前时刻的反馈信号即升力波动F

l
,与上一时刻的控制效果即奖励值,输入深度强化学习控制器,控制器输出用于控制绕流环境流场的动作信号即旋转参数;绕流环境流场接收到动作信号后执行旋转参数指令,再将信号的控制效果传入智能体,多次迭代,从而寻找到具有最优控制效果的旋转控制律;所述控制器采用深度强化学习智能体,具有两套神经网络,动作器和评估器;两套网络构建起环境状态、动作与奖励之间为拟合关系,动作器和评估器同时接收到状态和奖励信号,评估器评估其控制效果即奖励值,动作器输出动作信号即旋转参数;步骤3、强化学习框架中的智能体参...

【专利技术属性】
技术研发人员:任峰张帆宋健张恒
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1