【技术实现步骤摘要】
一种基于强化学习的结构振动控制方法、介质及设备
[0001]本专利技术属于振动控制
,具体涉及一种基于强化学习的结构振动控制方法、介质及设备。
技术介绍
[0002]振动控制方法主要有三种:被动控制、主动控制和半主动控制。被动控制不需要外界施加能量,只需一些无源的弹性或阻尼元件,其优势在于结构简单、可靠性高,但是对低频振动的抑制效果较差。随着结构对振动环境要求的不断提高,加之控制理论、作动传感技术和计算机科学的不断发展,振动主动/半主动控制技术已经在航空航天、车辆和土木工程等领域取得了诸多成功的应用。与被动控制相比,主动/半主动控制有较强的灵活性和环境适应性。
[0003]影响振动主动/半主动控制效果的关键因素之一是控制算法。PID是一种使用最为广泛的控制算法,目前已经在很多结构上进行了非常成熟的应用,但是PID为代表的经典控制理论仅适用于单输入单输出问题,对于多输入多输出系统就无能为力了。因此,利用状态变量、基于时域分析的的现代控制理论应运而生,这些方法也被应用到振动主动控制领域,其中最常见的算法包括线性二次调节器(Linear Quadratic Regulator,LQR)和线性二次高斯控制(Linear Quadratic Gaussian,LQG)。控制器的设计通常依赖于系统精确的数学模型,但是实际中系统往往存在不确定性、非线性等复杂特征,这使得数学模型的精度较差,或者甚至无法建立数学模型。为此,学者们提出了一些智能控制方法,主要包括模糊控制、专家系统、自适应控制以及神经网络控制等。
...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的结构振动控制方法,其特征在于,包括以下步骤:S1、建立被控系统的动力学方程和奖励函数;S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立用于存储学习样本的回放池;S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中,实现步骤S1和步骤S2之间的数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;记录并观察奖励信号的变化情况,当奖励信号处于收敛平稳趋势时终止训练,得到最终的策略神经网络作为控制器;S4、将步骤S3得到的控制器部署在软件或硬件平台上,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。2.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S1中,通过经验或者系统辨识方法估计参数分布的形式,确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口。3.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S1中,t时刻的奖励信号r
t
为:r
t
=
‑
∑α
i
|x
i,t
‑
0|其中,x
i,t
表示t时刻i位置处的位移响应;α
i
表示权重系数。4.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S3中,回放池的数据为(s
t
,a
t
,r
t
,s
t+1
),s
t
和s
t+1
表示t时刻和t+1时刻的观测信号,a
t
表示t时刻的控制信号,r
t
表示t时刻的奖励信号;采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用;策略网络和目标策略网络为架构相同的多层神经网络,输入为系统的反馈信号,输出为控制信号;价值网络和目标价值网络为架构相同的多层神经网络,输入为系统的反馈信号和控制信号,输出为控制信号的价值。5.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S3中,计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新;通过软更新方式将策略网络和价值网络复制给对应的目标网络;在训练过程中,对策略网络的输出μ(s
t
|θ
μ
)添加均值为0的正态分布随机噪声,得到控制信号a
t
=μ(s
t
|θ
μ
)+N(0,σ);训练完成后,策略网络的输出作为控制信号,即a
t
=μ(s
t
|θ
μ
)。6.根据权利要求5所述的基于强化学习的结构振动控制方法,其特征在于,策略网络...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。