一种基于深度强化学习的翼型优化设计方法技术

技术编号:36399878 阅读:33 留言:0更新日期:2023-01-18 10:06
本发明专利技术提出了一种基于深度强化学习的翼型优化设计方法,该方法不同于监督性学习,而是有着自主学习策略,长期奖励最大的特性,是一种更接近智能化的优化方法,且具有可迁移性以及策略的普适性。若是在一定范围内改变设计条件,例如来流马赫数、雷诺数等,原来优化得到的策略依旧能够提供初始优化方向,优化目标在很短的步数内就可以有明显的提升。很短的步数内就可以有明显的提升。很短的步数内就可以有明显的提升。

【技术实现步骤摘要】
一种基于深度强化学习的翼型优化设计方法


[0001]本专利技术属于飞机设计领域,提出一种基于深度强化学习的翼型优化设计方法。

技术介绍

[0002]翼型作为飞行器的主要组成部分,不仅提升飞行所需的升力,还保证飞行器的安定性和操作性。随着对翼型气动性能的了解与探索,多个翼型库也相应建立。目前尚不存在一种完全满足所有设计状态的超级翼型,需要根据设计用途和工况等因素,从翼型库中初步选择符合要求的基准翼型,基于基准翼型,结合设计要求不断改进基准翼型。对于改进基准翼型,最初的方法是使用风洞进行重复实验,这会消耗巨大的物力人力。
[0003]进入21世纪以来,科学技术的进步为计算流体力学(CFD)技术注入了新的活力,CFD技术很快成为了分析和解决流体问题的主要手段。使用计算流体力学技术可以大幅缩短优化周期,节省大量的人力物力,由此可以让设计师进行多次重复计算,直至达到获得预期的翼型,例如进化和遗传算法在气动优化问题的广泛应用。然而进化和遗传算法对优化过程中产生的大量计算数据的利用率较低。
[0004]机器学习在流体力学中的应用在近几年内飞速发展,目前机器学习在优化设计中最为常见的是基于响应面的性能快速预测方法,利用已有数据构建输入输出之间的映射加速优化过程,部分取代CFD技术在优化过程中担任的“角色”,属于监督性学习。而与监督性学习不同,强化学习构建的是环境的状态参数到动作参数的映射,其目的是迭代更新与环境交互的策略以获得最大累积奖励。此时不同于监督学习中要求预测的真实输出,而是对应到某一动作的奖励。翼型设计问题并不是单独追求某个性能的最优,而是在反复权衡比较之后的整体性能最优,是一项关联复杂的系统工程,往往需要结合工程师自身的经验和理解进行手动修型。而强化学习的训练过程与工程师积累经验的过程十分相似。类比于传统的试错法,强化学习中负责做出动作的智能体通过训练过程中持续地采取不同的“动作”并观察设计结果在未来一段时间内(或采取一系列动作之后)的收益,更新采取动作的策略。随着收益的增加,可以认为该智能体在一定程度上获得与工程师相同的设计经验。在翼型优化方面,李润泽使用强化学习对翼型压力分布进行优化以减小跨声速翼型的阻力,Viquerat进行了带约束和不带约束的优化尝试,强化学习在翼型优化上仍处于起步阶段,存在着智能体找不到方向、陷入局部最优的可能性。总的来说,在飞行器气动优化设计中将强化学习应用到翼型优化中可以有效提高优化效率,具有广泛的应用场景。

技术实现思路

[0005]由于当前基于CFD的方法优化效率较低,为提升翼型优化效率,本专利技术提出了一种基于深度强化学习的翼型优化设计方法,该方法不同于监督性学习,而是有着自主学习策略,长期奖励最大的特性,是一种更接近智能化的优化方法,且具有可迁移性,或者说策略的普适性。
[0006]本专利技术的技术方案为:
[0007]所述一种基于深度强化学习的翼型优化设计方法,包括以下步骤:
[0008]步骤1:用自由曲面变形法进行翼型的几何参数化:在基准翼型周围建立自由曲面变形控制框,建立控制框与翼型的映射关系,通过更改控制框点的位置,得到新的翼型;
[0009]步骤2:建立优化设计模型,根据飞行要求,确认单设计目标和约束条件,其中设计目标和约束条件为翼型的各种气动参数,例如升力系数、阻力系数和翼型厚度等,将设计目标和约束条件用数学表达式表示。一般的单目标优化问题可以写成以下数学形式:
[0010]Minimize:f(x)
[0011]subject to:g
w
(x)≥0,w=1,2,
···
,W
[0012]h
r
(x)=0,r=1,2,
···
,R
[0013]其中x为设计变量,f(x)为目标函数,g
w
(x)为不等式约束,共W个;h
r
(x)为等式约束,共R个。
[0014]步骤3:根据优化目标和约束条件建立奖励函数,其中总奖励值是由各个气动参数奖励值线性和得到,其中达到目标增加奖励值,满足约束不增加奖励值,不满足约束减小奖励值,同时在目标奖励值和约束奖励值乘以不同的系数用以平衡目标和约束之间的量级差异。
[0015]步骤4:建立智能体,包含策略模型π和价值函数模型,策略函数模型可以输出动作策略,而价值函数模型可以输出优势估计和价值函数,策略模型和价值函数模型均使用含有两层隐藏层的人工神经网络模型,隐藏层节点数为64。初始化策略模型参数θ0和价值函数模型参数将翼型中有关设计目标和约束条件的气动参数作为状态,包括翼型的升力系数、阻力系数、最大厚度和力矩系数。将基准机翼的气动参数作为初始状态s0。
[0016]步骤5:当前智能体由策略模型根据状态和奖励值给出动作a,也就是新的设计变量。
[0017]步骤6:对翼型实施动作得到新翼型。
[0018]步骤7:对新翼型建立结构化网格,使用开源求解器CFL3D进行翼型绕流数值模拟,主控方程为雷诺平均N

S方程,湍流模型为k

ωSST模型,计算得到翼型的升力系数、阻力系数、最大厚度和力矩系数,确认新翼型的气动参数为新状态。
[0019]步骤8:由计算得到的气动参数根据步骤3中的奖励函数计算得到奖励值。
[0020]步骤9:由当前策略模型循环重复步骤5

8共e

1次,得到包含每次循环得到的状态和动作的轨迹和奖励值{r
e
},轨迹τ={s0,a0,
···
,s
e
‑1,a
e
‑1,s
e
},其中s0和a0为初始状态和动作,s
e
为e步状态,s
e
‑1为e

1步状态,a
e
‑1为e

1步动作。
[0021]步骤10:基于当前策略模型重复步骤5

9共n

1次,得到n个的轨迹和奖励值。
[0022]步骤11:根据得到的n条轨迹参数和奖励值,基于当前智能体的价值函数模型计算优势估计,也就是每一个动作a的期望奖励与该状态下所有可能的动作的期望奖励的均值的差值。
[0023]步骤12:根据优势估计、轨迹和奖励值构建损失函数,基于随机梯度下降算法优化策略模型参数θ和价值函数模型参数优化目标为损失函数最小,用优化后的参数更新策略模型和价值函数模型,得到新的策略模型和价值函数模型。
[0024]步骤13:循环重复步骤5

12直至达到损失函数不再降低,完成训练。
[0025]有益效果
[0026]1.本专利技术提出的基于深度强化学习的翼型优化设计方法,有自主学习策略和长期奖励最大的特性,相较遗传算法等算法仅仅将大量计算数据作为优化目标和约束的评价标准,深度强化学习尝试学习优化过程中得到的经验,可以提高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的翼型优化设计方法,其特征在于:包括以下步骤:步骤1:用自由曲面变形法进行翼型的几何参数化:在基准翼型周围建立自由曲面变形控制框,建立控制框与翼型的映射关系,通过更改控制框点的位置,得到新的翼型;步骤2:建立优化设计模型,根据飞行要求,确认单设计目标和约束条件;步骤3:根据优化目标和约束条件建立奖励函数;步骤4:建立智能体,包含策略模型π和价值函数模型,策略函数模型输出动作策略,价值函数模型可以输出优势估计和价值函数;初始化策略模型参数θ0和价值函数模型参数将翼型设计目标和约束条件的气动参数作为状态,其中基准机翼对应的气动参数作为初始状态s0;步骤5:当前智能体由策略模型根据状态和奖励值给出动作,得到新的翼型设计变量;步骤6:对翼型实施动作得到新的翼型;步骤7:对得到的新翼型建立结构化网格,并进行新翼型绕流数值模拟,计算得到新翼型的气动参数作为新的状态;步骤8:,利用步骤7计算得到的气动参数,根据步骤3中的奖励函数计算得到奖励值;步骤9:由当前策略模型循环重复步骤5

8共e

1次,得到包含每次循环得到的状态和动作的轨迹和奖励值{r
e
},轨迹τ={s0,a0,

,s
e
‑1,a
e
‑1,s
e
},其中s0和a0为初始状态和动作,s
e
为e步状态,s
e
‑1为e

1步状态,a
e
‑1为e

1步动作;步骤10:基于当前策略模型重复步骤5

9共n

1次,得到n个的轨迹和奖励值;步骤11:根据得到的n条轨迹参数和奖励值,基于当前智能体的价值函数模型计算优势估计;步骤12:根据优势估计、轨迹和奖励值构建损失函数,优化策略模型参数θ和价值函数模型参数优化目标为损失函数最小,用优化后的参数更新策略模型和价值函数模型,得到新的策略模型和价值函数模型;步骤13:循环重复步骤5

12直至达到损失函数不再降低,完成训练。2.根据权利要求1所述一种基于深度强化学习的翼型优化设计方法,其特征在于:步骤2中,设计目标和约束条件为翼型的气动参数。3.根据权利要求2所述一种基于深度强化学习的翼型优化设计方法,其特征在于:步骤2中,设计目标是使翼型在设计状态下阻力最小,同时满足三个约束条件:(1)升力系数不减,(2)翼型的力矩系数的绝对值不增,(3)翼型的最大厚度不减;优化设计问题的数学表达式如下:Minimize:C
d
Subject to:|C
m
|≤|C
m0
|t≥t0其中C
d
为翼型阻力系数、C

【专利技术属性】
技术研发人员:屈峰段少凯孙迪惠心雨白俊强
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1