System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及主动流动控制,尤其涉及一种基于代理模型和迁移学习的主动流动控制方法。
技术介绍
1、减阻是流体力学和许多工业领域的一个重要课题,其中实现减阻的技术包括被动和主动流量控制技术。主动流量控制(afc)技术在被动流量控制的基础上可以进一步降低运输过程中的阻力。
2、为了实现对复杂环境的主动流动控制,深度强化学习(drl)因其在复杂环境下有益的控制效果,显示出巨大的潜力。其中,drl的环境模块主要以计算流体动力学(cfd)的形式引入。基于drl进行主动流动控制技术主要是利用智能体与环境之间的交互产生大量数据,智能体通过学习在不同状态下执行不同动作所获得的奖励大小,进而达到控制效果。目前,对于主动流动控制的研究而言,大多聚焦在深度强化学习在不同领域的应用,少有的研究介入了代理模型这一手段来加速drl过程,而代理模型迁移学习这一手段对更复杂的环境进行控制增强的思路还未有提出。为了在更广泛的流体流动环境中实施主动流动控制技术,需要加速策略的开发和增强策略的控制效果。同时,针对于更复杂的流场(高雷诺数),如何利用先验知识加速和提升性能尚未有这方面的技术。
3、在基于深度学习的主动流动控制技术方面,现有的技术虽然可以应用于复杂的主动流动控制技术,以openfoam作为环境生成的控制方法,但策略速度生成较慢,策略生成瓶颈在于cfd计算速度。还有用于提高主动流动控制策略训练的方法,虽然借助掩码深度神经网络的流场降阶模型,作为环境与深度强化学习算法进行交互,实现主动流动控制策略的快速求解。但是一方面的构建降阶模型需
4、综上所述,现有基于强化学习的主动流动控制技术尚不涉及到对复杂流动环境的流动控制策略的加速生成和优化效果的手段。
技术实现思路
1、本专利技术的目的是提供一种基于代理模型和迁移学习的主动流动控制方法,基于无模型强化学习交互经验训练代理模型,减少提前预模拟数据的时间和算力,提高交互速度,快速实现了复杂环境下的主动流动控制策略。
2、为实现上述目的,本专利技术提供了一种基于代理模型和迁移学习的主动流动控制方法,包括以下步骤:
3、s1、基于无模型强化学习进行数据采样;
4、s2、基于步骤s1智能体模块与cfd环境模块的交互数据,对神经网络进行训练;
5、s3、基于代理模型的主动流动控制训练;
6、s4、基于迁移学习思想,利用步骤s3建立的代理模型强化学习框架,进行复杂环境下的主动流动控制训练。
7、优选的,在步骤s1中,无模型强化学习由cfd环境模块和智能体模块构成;其中,cfd环境模块由ansys fluent组成;智能体模块由近端策略优化算法组成,通过近端策略优化算法进行神经网络的迭代优化。
8、优选的,在步骤s1中,基于无模型强化学习进行数据采样,具体过程如下:
9、s11、通过pyfluent将智能体模块和环境模块连接起来,实现智能体对ansysfluent中边界条件的改变,以获得施加动作下的流动阻力变化;
10、s12、在每一步交互中,智能体观察当前状态st,根据其策略选择动作at,然后在环境中执行这个动作;
11、s13、执行动作后,智能体会观察到一个新的状态st+1和一个奖励rt,这些数据按照(st,at,rt,st+1)的形式被记录下来,形成一个经验元组或轨迹,用于更新动作网络和批评家网络。
12、优选的,在步骤s2中,基于步骤s1智能体模块与cfd环境模块的交互数据,对神经网络进行训练,具体过程如下:
13、s21、借助全连接神经网络,以当前状态st和该状态下采取的动作at作为神经网络的输入;以当前状态st采取at后获得的流场st+1和所得到的奖励rt作为输出,构建数据库;
14、s22、初始化全连接神经网络的权重和偏置,将st和at作为输入传递给神经网络,计算出预测的st+1′和rt′;
15、s23、使用损失函数来衡量预测值st+1′和rt′与真实值st+1和rt之间的差距,以损失函数计算的梯度更新神经网络的权重;
16、s24、重复步骤s21-s23,直到网络收敛或者达到预定的训练轮次,获得不同雷诺数下的代理模型。
17、优选的,代理模型采用全连接神经网络的形式,能够处理任意大小的输入向量,并将其映射到另一个向量空间,以预测输出。
18、优选的,在步骤s3中,建立基于代理模型的主动流动控制方法,具体实现过程如下:
19、s31、将无控制下的流场作为初始状态st,包含所有与流场相关的物理参数;
20、s32、初始化智能体模块的神经网络,设计接收流场状态st,以接收到的状态st作为输入,智能体通过其内部的决策机制生成动作at;
21、s33、将当前状态st和由智能体产生的动作at组合成一个输入数组,传递给代理模型;代理模型利用神经网络模拟真实流场的响应,快速预测出执行动作at后的新流场状态st+1以及对应的奖励rt;新流场状态st+1成为下一个时间步的输入状态,从而形成一个闭环系统;
22、s34、智能体根据奖励rt更新其内部策略,通过不断迭代,智能体学习最优流动控制策略,实现主动流动控制。
23、优选的,奖励rt用于评估智能体所采取的动作对流动控制目标的贡献程度,反映流动控制的目标。
24、优选的,在步骤s4中,基于迁移学习,利用步骤s3建立的代理模型强化学习框架,以简单环境下流场主动流动控制的策略作为初始策略,在复杂环境下进行训练,在原始策略的技术上进行微调,智能体不断优化控制策略,使其适应更复杂的流场条件,找到在复杂环境下实现流动控制的新策略,从而实现复杂环境下的主动流动控制。
25、因此,本专利技术采用上述一种基于代理模型和迁移学习的主动流动控制方法,基于无模型强化学习交互经验训练代理模型,显著减少提前预模拟数据的时间和算力,提高了交互速度,解决了现有主动流动控制交互速度慢的缺点,解决了复杂环境代理模型精度有限导致的控制策略不足的缺点,快速实现了复杂环境下的主动流动控制策略。
26、下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
本文档来自技高网...【技术保护点】
1.一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:在步骤S1中,无模型强化学习由CFD环境模块和智能体模块构成;其中,CFD环境模块由ANSYS Fluent组成;智能体模块由近端策略优化算法组成,通过近端策略优化算法进行神经网络的迭代优化。
3.根据权利要求2所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,在步骤S1中,基于无模型强化学习进行数据采样,具体过程如下:
4.根据权利要求3所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,在步骤S2中,基于步骤S1智能体模块与CFD环境模块的交互数据,对神经网络进行训练,具体过程如下:
5.根据权利要求4所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:代理模型采用全连接神经网络的形式,能够处理任意大小的输入向量,并将其映射到另一个向量空间,以预测输出。
6.根据权利要求4所述的一种基于代理模型和迁移学习的主动流动控制方法
7.根据权利要求6所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:奖励rt用于评估智能体所采取的动作对流动控制目标的贡献程度,反映流动控制的目标。
8.根据权利要求6所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:在步骤S4中,基于迁移学习,利用步骤S3建立的代理模型强化学习框架,以简单环境下流场主动流动控制的策略作为初始策略,在复杂环境下进行训练,在原始策略的技术上进行微调,智能体不断优化控制策略,使其适应更复杂的流场条件,找到在复杂环境下实现流动控制的新策略,从而实现复杂环境下的主动流动控制。
...【技术特征摘要】
1.一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:在步骤s1中,无模型强化学习由cfd环境模块和智能体模块构成;其中,cfd环境模块由ansys fluent组成;智能体模块由近端策略优化算法组成,通过近端策略优化算法进行神经网络的迭代优化。
3.根据权利要求2所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,在步骤s1中,基于无模型强化学习进行数据采样,具体过程如下:
4.根据权利要求3所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于,在步骤s2中,基于步骤s1智能体模块与cfd环境模块的交互数据,对神经网络进行训练,具体过程如下:
5.根据权利要求4所述的一种基于代理模型和迁移学习的主动流动控制方法,其特征在于:代理模型...
【专利技术属性】
技术研发人员:王言,张红娜,李小斌,王春宇,李凤臣,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。