基于元逆强化学习的流程制造价值链挖掘与工业控制方法技术

技术编号：41559947 阅读：11 留言：0更新日期：2024-06-06 23:44

本发明专利技术公开了基于元逆强化学习的流程制造价值链挖掘与工业控制方法，包括：首先，通过引入隐变量作为流程制造价值链挖掘的模态指示变量，构建增广MDP定义；其次，使用隐变量决定的奖励函数和条件策略，描述逆强化学习控制器设计和价值链挖掘问题；然后，在元逆强化学习训练过程中，利用推理网络估计当前所处的模态，针对不同的模态求解一个通用的但可区分模态的多模态控制器；最后，将训练好的元逆强化学习智能体用于在线价值链挖掘与工业控制。本发明专利技术为逆强化学习智能体赋予了从历史闭环数据中学习多模态行为的能力，提升其在跨模态场景下的迁移学习效率，从而提供了一种流程制造价值链挖掘与工业控制器设计的数据驱动解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及流程制造及工业控制，尤其是涉及一种基于元逆强化学习的流程制造价值链挖掘与工业控制方法。

技术介绍

1、流程制造行业是制造业的重要组成部分，是经济社会发展的支柱产业。新一代大数据技术和人工智能技术的发展和应用，为流程工业智能工厂建设带来了新的机遇和挑战。目前，流程工业生产日益出现动态多变、多生产工序叠加、多产品牌号联产、多周期排产统筹等特点，对生产过程计划、调度提出苛刻要求，基于大数据分析与人工智能技术对流程工业中间产品进行高效、动态、准确的价值链挖掘与分析，是提高企业生产运行水平的重要基础之一。此外，流程制造过程控制也亟需朝智能制造的方向实现转型升级，对智能控制手段提出了更高的需求。

2、近年来，随着深度强化学习的兴起，为流程制造价值链的挖掘与工业控制方法带来了新的范式，越来越多的研究人员开始尝试将强化学习与工业控制相结合。

3、如授权公告号为cn 113836788 b的中国专利文献公开了一种基于局部数据增强的流程工业强化学习控制的加速方法，包括：首先，在强化学习训练过程中，在历史案例库中检索与当前状况相似的案例，将其作为局部模态下的邻近数据；其次，利用这些检索到的基于案例的知识，在局部操作范围内建立辅助的局部动力学模型；然后，使用在线建立的局部动力学模型生成一系列虚拟的案例，作为经验回放缓冲区的增广案例；最后，将生成的虚拟案例和交互获得的真实案例合并，共同组成一个新的联合经验回放缓冲区，用于更新强化学习智能体。该专利技术可有效地提升强化学习智能体在跨模态/跨工况情况下的训练效率以及迁移学

4、然而，现有研究往往未能从根本上解决强化学习面临的一系列挑战，包括高昂的试错成本、极低的样本效率以及探索训练带来的不稳定性和不安全性。值得遗憾的是，传统的控制设计方法往往忽视了工业现场积累的大量闭环运行数据，没有充分利用其中蕴含的丰富信息。实际上，这些闭环数据可以被用来挖掘流程制造价值链的关键变量及其演化规律等重要信息。

5、逆强化学习为上述想法提供了可能性，但是常规的逆强化学习方法无法解决工业控制及价值链挖掘分析的多模态本质特性，因为不同的运行模态会带来不同的数据分布，在模态发生变化的场景下并不适用。

6、综上所述，在流程制造与工业控制领域，迄今为止还没有任何关于利用元学习和逆强化学习方法解决流程制造过程价值链挖掘以及多模态工业控制器设计的研究工作。

技术实现思路

1、本专利技术提供了基于元逆强化学习的流程制造价值链挖掘与工业控制方法，可以有效提升强化学习算法在跨模态/跨工况情况下的训练速度和迁移学习能力，实现面向流程制造多模态过程的价值链挖掘与智能优化控制。

2、一种基于元逆强化学习的流程制造价值链挖掘与工业控制方法，包括以下步骤：

3、(1)对于给定的流程制造多模态工业对象，收集其在历史运行过程中积累的多模态闭环工业数据，构建包含多种操作模态的历史闭环运行大数据集；

4、(2)定义逆强化学习智能体的状态空间、动作空间，以及逆强化学习价值链挖掘与工业控制器的网络架构；

5、(3)在步骤(2)的基础上，引入一个隐变量作为流程制造价值链的模态指示变量，将其与逆强化学习马尔科夫决策过程mdp的状态空间共同构建成一个增广的状态空间，并构造新的逆强化学习智能体；

6、(4)将历史闭环运行大数据集作为专家示教的多模态轨迹来源，训练基于元学习的多模态逆强化学习智能体，即元逆强化学习智能体；

7、其中，元逆强化学习智能体包括推理网络、奖励函数和动作网络这三个待学习的网络；元逆强化学习智能体的目标是训练一个工业控制器使其产生的轨迹分布和多模态闭环工业数据一致，同时训练出合适的奖励函数用于解释工业控制器的最优控制动作，进而分析和挖掘流程制造价值链的价值规律；

8、(5)待步骤(4)中的元逆强化学习智能体训练至收敛或满足预设的训练终止条件后，将所得到的奖励函数和动作网络分别作为流程制造价值链挖掘工具及多模态工业控制器，并用于初始化迁移学习的起点；

9、(6)在新的工况下进行迁移学习或fine-tuning，使步骤(5)中所得到的奖励函数和动作网络适应之前未遇到的工况下的价值链挖掘与工业控制需求；

10、(7)利用训练好的元逆强化学习智能体中的动作网络和推理网络构成多模态工业控制器，进行实际多模态工业对象的在线优化控制；将所得到的奖励函数作为不同状态和动作下的流程制造价值链挖掘工具。

11、进一步地，步骤(1)中，多模态闭环工业数据的收集过程包括：

12、假设一个过程系统具有个操作模态m＝1,2,…,m，与之相对应的有m个不同的最优/近优工业控制器其中针对模态m的最优工业控制器为则在每个模态对应的动力学下，相应的工业控制器会产生不同m种不同但结构上相似的轨迹分布；在该多模态过程控制系统的运行过程中会积累大量包含上述不同模态下的多模态闭环工业数据，最终可以收集到m种不同的轨迹分布。

13、步骤(3)中，通过隐变量来区分流程制造价值链的模态关键信息，从而通过基于隐变量的元学习来实现逆强化学习驱动的多模态工业控制器设计。

14、步骤(3)中，利用隐变量来增广逆强化学习mdp的状态空间，并构造新的逆强化学习智能体，具体包括：

15、(3-1)将原始mdp中所有可以学习的项都增加一个基于隐变量的条件依赖项，其中为指示模态条件的隐变量m的取值空间；

16、(3-2)定义由隐变量决定的条件策略为π:隐变量模态信息驱动的奖励函数为r:基于上述拓展的定义，将不同模态下的强化学习智能体训练问题统一到增广的mdp框架下；

17、(3-3)根据最大熵强化学习框架，在多模态场景下，求解最优的条件策略函数，其计算方式为：

18、

19、其中，st,at分别为时刻t的状态和动作，p(m)为模态隐变量的先验概率分布，r(st,at,m)是模态m决定的奖励函数，-logπ(at|st,m)是条件策略的熵正则化项，是模态m下的最优条件策略；

20、(3-4)计算第m个专家轨迹的条件概率分布：

21、

22、其中，η(s1)为初始时刻状态的概率分布，p(st+1|st,at)为环境动力学模型的状态转移概率，π(at|st,m)是模态m下的最优专家策略，为第m个专家轨迹的条件概率分布；

23、(3-5)利用步骤(3-1)至(3-4)所得到的增广后的mdp定义，将多模态工业控制器设计问题重构为基于隐变量的元逆强化学习训方法，并能够从多模态历史闭环演示数据τe中进行学习；其中，多模态数据τe可由边缘概率分布中采样得到：

24、

25、其中，表示所有专家轨迹的整体概率分布。

26、步骤(4)中，元逆强化学习方法的总体目标为：

27、

28、其中，表示从历史闭环运本文档来自技高网...

【技术保护点】

1.一种基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(1)中，多模态闭环工业数据的收集过程包括：

3.根据权利要求1所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(3)中，通过隐变量来区分流程制造价值链的模态关键信息，从而通过基于隐变量的元学习来实现逆强化学习驱动的多模态工业控制器设计。

4.根据权利要求1或3所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(3)中，利用隐变量来增广逆强化学习MDP的状态空间，并构造新的逆强化学习智能体，具体包括：

5.根据权利要求1所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(4)中，元逆强化学习方法的总体目标为：

6.根据权利要求1所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(4)中，元逆强化学习训练过程，具体包括以下步骤：

7.根据

...

【技术特征摘要】

1.一种基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(1)中，多模态闭环工业数据的收集过程包括：

4.根据权利要求1或3所述的基于元逆强化学习的流程制造价值链挖掘与工业控制方法，其特征在于，步骤(3)中，利用隐变量来增广逆强化学习mdp的状态空间，并构造新的逆强化学习智能体，具体包括：

【专利技术属性】
技术研发人员：苏宏业，林润泽，吴争光，谢磊，徐巍华，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人