当前位置: 首页 > 专利查询>东北大学专利>正文

一种控制板形的带钢轧制生产方法技术

技术编号:39414464 阅读:10 留言:0更新日期:2023-11-19 16:05
本发明专利技术提供一种控制板形的带钢轧制生产方法,涉及带钢轧制技术领域。首先采集冷轧带钢实际生产数据,建立冷轧板形控制系统状态空间方程;以状态空间模型为训练环境,通过Pycharm平台搭建深度强化学习模型,离线训练,得到带钢板形控制模型并保存;将实时生产的带钢板形值,输入到带钢板形控制模型中,利用集成思想,得到集成深度强化学习控制策略并执行。本发明专利技术基于状态空间模型,借助深度强化学习方法以及集成学习思想,提出了端到端的板形控制模式,可以在短时间内降低板形值,并始终保持板形值在0.5 IU范围内,精度高,能够很快地达到生产要求,可以广泛地投入到带钢轧制生产过程当中。产过程当中。产过程当中。

【技术实现步骤摘要】
一种控制板形的带钢轧制生产方法


[0001]本专利技术涉及带钢轧制
,尤其涉及一种控制板形的带钢轧制生产方法。

技术介绍

[0002]冷轧带钢作为工业生产的重要原料之一,广泛应用于汽车行业、建筑产业、家电行业、电子制造行业和轻工业等多个国民经济生产领域。冷轧带钢生产流程需要经过酸洗、冷轧、热处理、精整、涂镀等工艺。其中冷轧工艺:原料为热轧带钢或热轧卷,在常温下经冷机组轧制成厚度为0.1~3mm的薄钢卷。冷轧厂为4辊或6辊多机架全连续冷轧机组,为保证连续性,利用活套预存足够的带钢,并且前后带钢在进入轧机时进行焊接。通过计算机控制轧制过程,可以在生产中改变规格。随着我国工业的发展,对板材的质量和厚度精度的需求逐渐提高,促进冷轧过程中的厚度控制、板形控制等等技术的发展。
[0003]板形控制作为带钢生产的核心技术,受到轧制力、张力、轧制速度、轧辊热凸度等多个相互交织参数的影响,其控制水平高低是能否生产高品质带钢的关键因素。带钢板形控制系统具有非线性、强耦合、多变量等特征,这使得建立精确的数学控制模型非常困难,进而导致应用传统的模型控制方法难以进一步提高板形的精度。近年来,大数据和人工智能产业发展迅速,数据驱动的智能化方法,善于从历史数据中总结因果关系,具有很强的自学习能力,将数据驱动的智能控制手段应用于带钢板形控制过程,可以有效提高控制精度。因此,开发智能化的带钢板形控制系统具有重要意义。
[0004]强化学习是机器学习中一种流行技术,通过与环境交互来学习控制策略,致力于提高序列决策行为的动态和长期效应,在解决一些复杂问题方面取得了很大成功,受到了工业界和学术界的广泛应用。Q学习就是解决控制问题的经典算法,但Q学习在计算上很有挑战性,难以应对带钢轧制领域及时响应的高要求。深度Q网络通过使用深度神经网络估计Q值来减轻维度负担。此外,演员评论家技术与具有连续动作空间的深度Q网络相结合,产生了DDPG、TD3等处理连续动作空间的深度强化学习算法,目前深度强化学习算法已经在多种控制领域有广泛的应用。
[0005]由于某种规格的带钢在一条生产线上会重复生产,如果可以通过历史数据预先确定该规格带钢生产场景下的控制策略,那么当再次遇到相同的场景时就可以立即在线执行离线训练时得到的控制策略。

技术实现思路

[0006]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种控制板形的带钢轧制生产方法,基于深度强化学习的离线训练在线执行(OPOE)的带钢板形控制模式,以此获得更高效的控制效率以及更优良的控制精度。
[0007]为解决上述技术问题,本专利技术所采取的技术方案是:一种控制板形的带钢轧制生产方法,包括以下步骤:步骤1:采集冷轧带钢实际生产数据,建立冷轧板形控制系统状态空间方程:
;式中,A、B、C、D、K为状态空间矩阵,u(t)为系统输入,y(t)为系统输出,e(t)为系统扰动,x(t)为n阶状态向量,T为采样时间;步骤2:以状态空间模型为训练环境,通过Pycharm平台搭建深度强化学习模型,离线训练,得到带钢板形控制模型并保存;步骤3:将实时生产的带钢板形值,输入到带钢板形控制模型中,利用集成思想,得到集成深度强化学习控制策略并执行。
[0008]进一步地,所述步骤1具体包括以下步骤:步骤1.1:根据冷轧带钢生产数据,利用生产规律选择状态空间模型的输入输出;步骤1.2:对状态空间模型的输入数据进行标准化处理,具体如下:;;;式中,x
i
为第i条状态空间模型输入样本,μ为样本均值,σ为样本标准差,x
i

为第i条状态空间模型输出样本,n为样本总数;步骤1.3:设置状态空间模型阶数、采样时间、输入延迟,构造辨识数据,并划分训练集和验证集;步骤1.4:利用MATLAB中系统辨识工具箱,得到状态空间模型,并保存A、B、C、D、K矩阵结果。
[0009]进一步地,所述步骤1.1中,选择轧制力、辊缝差、工作辊弯辊力、中间辊弯辊力作为状态空间模型的输入,将带钢横截面各个点的板形值作为状态空间模型的输出。
[0010]进一步地,所述步骤2的具体方法为:步骤2.1:将A、B、C、D矩阵值,输入到Python中,得到状态空间模型结果,作为强化学习的训练环境;步骤2.2:设定训练环境中的动作空间范围、初始化的状态空间范围;步骤2.3:设定训练环境中的奖励reward以及提前停止条件done;步骤2.4:利用Python语言编写DDPG算法,并设置训练过程中的超参数,训练得到DDPG控制模型并保存;步骤2.5:利用Python语言编写TD3算法,并设置训练过程中的超参数,训练得到TD3控制模型并保存。
[0011]进一步地,所述步骤2.3中奖励reward按下式设定:;
提前停止条件done按下式设定:;其中,I
i
表示为带钢横截面第i 点实测板形值与目标板形值的偏差。
[0012]进一步地,所述步骤2.4的具体方法为:步骤2.4.1:随机初始化策略网络μ(s|θ
μ
)和评判网络Q(s,a|θ
Q
),其中,s表示状态,a表示动作;θ
μ
表示策略网络中的权重,θ
Q
表示评判网络中的权重;步骤2.4.2:使用μ(s|θ
μ
)和Q(s,a|θ
Q
)初始化目标网络参数μ

和Q

;步骤2.4.3:初始化经验回放池R;步骤2.4.4:对于每一个训练回合,初始化OUN动作探索噪声、状态s1;步骤2.4.5:对于每一个时间t,根据当前策略网络μ(s
t

μ
)和探索噪声选择动作a
t
,如下式:;步骤2.4.6:执行动作a
t
得到奖励r
t
和下一状态s
t+1
,把(s
t
,a
t
,r
t
,s
t+1
)保存到经验回放池R中;步骤2.4.7:设置折扣因子γ,从经验回放池R中随机选取N个(s
t
,a
t
,r
t
,s
t+1
),得到当前时刻t对应的目标回报值y
t
:;步骤2.4.8:通过最小化损失L更新评判网络Q:;步骤2.4.9:通过采样得到的策略梯度更新动作网络μ:;其中,、分别表示策略网络μ(s|θ
μ
)损失梯度、评判网络Q(s,a|θ
Q
)梯度;步骤2.4.10:更新目标网络:;;步骤2.4.11:重复步骤2.4.5~2.4.10,直至t达到设定值或满足done,为一个训练回合;步骤2.4.12:重复步骤2.4.4~2.4.11,直至达到总训练回合结束。
[0013]进一步地,所述步骤2.5的具体方法为:
步骤2.5.1:使用随机参数θ1、θ2、初始化评判网络Q
θ1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种控制板形的带钢轧制生产方法,其特征在于:所述方法包括以下步骤:步骤1:采集冷轧带钢实际生产数据,建立冷轧板形控制系统状态空间方程:;式中,A、B、C、D、K为状态空间矩阵,u(t)为系统输入,y(t)为系统输出,e(t)为系统扰动,x(t)为n阶状态向量,T为采样时间;步骤2:以状态空间模型为训练环境,通过Pycharm平台搭建深度强化学习模型,离线训练,得到带钢板形控制模型并保存;步骤3:将实时生产的带钢板形值,输入到带钢板形控制模型中,利用集成思想,得到集成深度强化学习控制策略并执行。2.根据权利要求1所述的控制板形的带钢轧制生产方法,其特征在于:所述步骤1具体包括以下步骤:步骤1.1:根据冷轧带钢生产数据,利用生产规律选择状态空间模型的输入输出;步骤1.2:对状态空间模型的输入数据进行标准化处理,具体如下:;;;式中,x
i
为第i条状态空间模型输入样本,μ为样本均值,σ为样本标准差,x
i

为第i条状态空间模型输出样本,n为样本总数;步骤1.3:设置状态空间模型阶数、采样时间、输入延迟,构造辨识数据,并划分训练集和验证集;步骤1.4:利用MATLAB中系统辨识工具箱,得到状态空间模型,并保存A、B、C、D、K矩阵结果。3.根据权利要求2所述的控制板形的带钢轧制生产方法,其特征在于:所述步骤1.1中,选择轧制力、辊缝差、工作辊弯辊力、中间辊弯辊力作为状态空间模型的输入,将带钢横截面各个点的板形值作为状态空间模型的输出。4.根据权利要求2所述的控制板形的带钢轧制生产方法,其特征在于:所述步骤2的具体方法为:步骤2.1:将A、B、C、D矩阵值,输入到Python中,得到状态空间模型结果,作为强化学习的训练环境;步骤2.2:设定训练环境中的动作空间范围、初始化的状态空间范围;步骤2.3:设定训练环境中的奖励reward以及提前停止条件done;步骤2.4:利用Python语言编写DDPG算法,并设置训练过程中的超参数,训练得到DDPG
控制模型并保存;步骤2.5:利用Python语言编写TD3算法,并设置训练过程中的超参数,训练得到TD3控制模型并保存。5.根据权利要求4所述的控制板形的带钢轧制生产方法,其特征在于:所述步骤2.3中奖励reward按下式设定:;提前停止条件done按下式设定:;其中,I
i
表示为带钢横截面第i 点实测板形值与目标板形值的偏差。6.根据权利要求4所述的控制板形的带钢轧制生产方法,其特征在于:所述步骤2.4的具体方法为:步骤2.4.1:随机初始化策略网络μ(s|θ
μ
)和评判网络Q(s,a|θ
Q
),其中,s表示状态,a表示动作;θ
μ
表示策略网络中的权重,θ
Q
表示评判网络中的权重;步骤2.4.2:使用μ(s|θ
μ
)和Q(s,a|θ
Q
)初始化目标网络参数μ

和Q

;步骤2.4.3:初始化经验回放池R;步骤2.4.4:对于每一个训练回合,初始化OUN动作探索噪声、状态s1;步骤2.4.5:对于每一个时间t,根据当前策略网络μ(s
t

μ
)和探索噪声选择动作a
t
,如下式:;步骤2.4.6:执行动作...

【专利技术属性】
技术研发人员:孙杰丁肇印雷佳为丁成砚王云龙王姝婷杨一铭彭文张殿华
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1