一种基于强化学习的结构振动控制方法、介质及设备技术

技术编号:28208731 阅读:48 留言:0更新日期:2021-04-24 14:41
本发明专利技术公开了一种基于强化学习的结构振动控制方法、介质及设备,建立被控系统的动力学方程和奖励函数;建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立回放池;实现数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;得到最终的策略神经网络作为控制器;部署控制器,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。本发明专利技术为复杂结构振动控制提高了一种更加智能的控制方法,具有优异的控制性能和工程实用性。能和工程实用性。

【技术实现步骤摘要】
一种基于强化学习的结构振动控制方法、介质及设备


[0001]本专利技术属于振动控制
,具体涉及一种基于强化学习的结构振动控制方法、介质及设备。

技术介绍

[0002]振动控制方法主要有三种:被动控制、主动控制和半主动控制。被动控制不需要外界施加能量,只需一些无源的弹性或阻尼元件,其优势在于结构简单、可靠性高,但是对低频振动的抑制效果较差。随着结构对振动环境要求的不断提高,加之控制理论、作动传感技术和计算机科学的不断发展,振动主动/半主动控制技术已经在航空航天、车辆和土木工程等领域取得了诸多成功的应用。与被动控制相比,主动/半主动控制有较强的灵活性和环境适应性。
[0003]影响振动主动/半主动控制效果的关键因素之一是控制算法。PID是一种使用最为广泛的控制算法,目前已经在很多结构上进行了非常成熟的应用,但是PID为代表的经典控制理论仅适用于单输入单输出问题,对于多输入多输出系统就无能为力了。因此,利用状态变量、基于时域分析的的现代控制理论应运而生,这些方法也被应用到振动主动控制领域,其中最常见的算法包括线性二次调节器(Linear Quadratic Regulator,LQR)和线性二次高斯控制(Linear Quadratic Gaussian,LQG)。控制器的设计通常依赖于系统精确的数学模型,但是实际中系统往往存在不确定性、非线性等复杂特征,这使得数学模型的精度较差,或者甚至无法建立数学模型。为此,学者们提出了一些智能控制方法,主要包括模糊控制、专家系统、自适应控制以及神经网络控制等。
[0004]现有的智能控制方法非常依赖人类知识,并未体现出真正的智能。比如,模糊控制非常依靠控制专家或操作者的经验知识,但若缺乏这样的控制经验,很难设计出高水平的模糊控制器;神经网络控制由于监督学习的固有范式,需要提供大量标签数据供神经网络进行训练,而标签数据的产生需要人类知识的支撑,所以神经网络控制实际上是人类知识的“拟合器”;自适应控制的主要思路是凑李雅普诺夫(Lyapunov)函数,该过程仍然需要大量的专家知识。因此,针对具有不确定性、非线性特性的复杂系统,需要提供一种更加智能的振动控制方法,减少人类知识在控制器设计中的参与度。

技术实现思路

[0005]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于强化学习的结构振动控制方法、介质及设备,采用强化学习算法设计神经网络控制器,不涉及专家经验,完全由算法自主学习完成,为具有不确定性、非线性等特征的复杂系统提供一种更加智能的振动控制方法。
[0006]本专利技术采用以下技术方案:
[0007]一种基于强化学习的结构振动控制方法,包括以下步骤:
[0008]S1、建立被控系统的动力学方程和奖励函数;
[0009]S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立用于存储学习样本的回放池;
[0010]S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中,实现步骤S1和步骤S2之间的数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;记录并观察奖励信号的变化情况,当奖励信号处于收敛平稳趋势时终止训练,得到最终的策略神经网络作为控制器;
[0011]S4、将步骤S3得到的控制器部署在软件或硬件平台上,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。
[0012]具体的,步骤S1中,通过经验或者系统辨识方法估计参数分布的形式,确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口。
[0013]具体的,步骤S1中,t时刻的奖励信号r
t
为:
[0014][0015]其中,x
i,t
表示t时刻i位置处的位移响应;α
i
表示权重系数。
[0016]具体的,步骤S3中,回放池的数据为(s
t
,a
t
,r
t
,s
t+1
),s
t
和s
t+1
表示t时刻和t+1时刻的观测信号,a
t
表示t时刻的控制信号,r
t
表示t时刻的奖励信号;采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用;策略网络和目标策略网络为架构相同的多层神经网络,输入为系统的反馈信号,输出为控制信号;价值网络和目标价值网络为架构相同的多层神经网络,输入为系统的反馈信号和控制信号,输出为控制信号的价值。
[0017]具体的,步骤S3中,计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新;通过软更新方式将策略网络和价值网络复制给对应的目标网络;在训练过程中,对策略网络的输出μ(s
t

μ
)添加均值为0的正态分布随机噪声,得到控制信号a
t
=μ(s
t

μ
)+N(0,σ);训练完成后,策略网络的输出作为控制信号,即a
t
=μ(s
t

μ
)。
[0018]进一步的,策略网络和价值网络损失函数具体为:
[0019]y
t
=r
t
+γQ

(s
t+1


(s
t+1

μ

)|θ
Q

)
[0020][0021][0022]其中,和表示策略网络和价值网络的损失函数;θ
μ
、θ
μ

、θ
Q
和θ
Q

表示策略网络、目标策略网络、价值网络和目标价值网络的参数;μ(
·
)、μ

(
·
)、Q(
·
)和Q

(
·
)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数;s
t
、a
t
和r
t
表示t时刻的
反馈信号、控制信号和回报;s
t+1
表示t+1时刻的测量信号;γ表示回报的衰减系数;N是样本数目,t=1,2,

,N。
[0023]进一步的,软更新机制表示为:
[0024]θ
Q


τ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的结构振动控制方法,其特征在于,包括以下步骤:S1、建立被控系统的动力学方程和奖励函数;S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立用于存储学习样本的回放池;S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中,实现步骤S1和步骤S2之间的数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;记录并观察奖励信号的变化情况,当奖励信号处于收敛平稳趋势时终止训练,得到最终的策略神经网络作为控制器;S4、将步骤S3得到的控制器部署在软件或硬件平台上,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。2.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S1中,通过经验或者系统辨识方法估计参数分布的形式,确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口。3.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S1中,t时刻的奖励信号r
t
为:r
t


∑α
i
|x
i,t

0|其中,x
i,t
表示t时刻i位置处的位移响应;α
i
表示权重系数。4.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S3中,回放池的数据为(s
t
,a
t
,r
t
,s
t+1
),s
t
和s
t+1
表示t时刻和t+1时刻的观测信号,a
t
表示t时刻的控制信号,r
t
表示t时刻的奖励信号;采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用;策略网络和目标策略网络为架构相同的多层神经网络,输入为系统的反馈信号,输出为控制信号;价值网络和目标价值网络为架构相同的多层神经网络,输入为系统的反馈信号和控制信号,输出为控制信号的价值。5.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S3中,计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新;通过软更新方式将策略网络和价值网络复制给对应的目标网络;在训练过程中,对策略网络的输出μ(s
t

μ
)添加均值为0的正态分布随机噪声,得到控制信号a
t
=μ(s
t

μ
)+N(0,σ);训练完成后,策略网络的输出作为控制信号,即a
t
=μ(s
t

μ
)。6.根据权利要求5所述的基于强化学习的结构振动控制方法,其特征在于,策略网络...

【专利技术属性】
技术研发人员:董龙雷周嘉明
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1