一种基于竞争式元强化学习的作业车间调度方法和系统技术方案

技术编号：44330102 阅读：1 留言：0更新日期：2025-02-18 20:37

本发明专利技术公开了一种基于竞争式元强化学习的作业车间调度方法和系统，首先，构造含有多个不同调度任务类型的任务库，并随机初始化多个调度模型。在每个训练周期，为各调度模型随机抽取一个任务环境，通过行为策略网络与环境的交互生成支持集，并进行模型参数的内环适应性更新。然后，再与一个新环境交互生成查询集，并进行外环元参数更新。最后，基于竞争评价函数比较各调度模型的学习效果，辨别本轮训练中评估最佳的调度模型，并使其他模型的参数朝其参数方向靠拢。重复上述过程，直到训练完成获得多个优质的调度模型。本发明专利技术帮助调度模型快速适应不同任务，提高了其自主决策和持续优化能力，对求解现实中复杂、动态的调度问题具有非常重要的意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及离散制造，具体涉及一种基于竞争式元强化学习的作业车间调度方法和系统。

技术介绍

1、车间调度问题在现代生产活动中具有重要的实际意义，通过合理的调度决策，可以有效提升生产效率并降低生产成本。而在全球“智能制造”工业转型浪潮中，离散制造行业伴随着人工智能技术的崛起也迎来了新的挑战和机遇。传统的车间调度问求解方法主要包括精确方法和近似方法。其中，精确方法如分支定界法和混合整数规划等，旨在通过严格计算求得最优解。这类方法虽然精确，但通常需要高昂的时间和计算成本，因而在实践中较少使用。而近似方法，如优先调度规则算法和智能优化算法等，易于实现且计算速度快，因此使用更为广泛。不过，这类算法在面对不同的任务场景时，往往还需要进行针对性的规则或参数设计以保证性能。而随着智能制造技术的日益普及，现代生产线上经常需要进行小样本情况下的调度调整，例如临时调整生产任务、应急调配人手或变更生产类型等。在这种复杂动态场景下，如何使调度决策模型快速适应小样本新数据，并有效应对新的调度任务，仍是亟需解决的问题。

2、近年来，深度强化学习方法在越来越多的领域中发挥着重要作用，包括作业车间调度问题在内的组合优化正是其中之一。通过将调度任务建模成一个马尔科夫决策过程，强化学习方法能帮助决策模型在仿真车间环境中进行探索和学习，从而实现端到端地给出调度决策解。目前深度强化学习已经广泛应用于求解车间调度问题，并取得较出色的表现。luo等人(dynamic scheduling for flexible job shop with new job i

3、上述列举的调度方法虽然可以用于作业车间调度问题的求解，但仍存在一些问题，主要表现在对不同类型调度任务和环境的泛化能力和适应效果较差，因而模型跨任务适应速度、求解效率和调度质量等方面都有提升空间。因此，亟需提出一种新的支持在不同类型任务和环境中进行作业车间调度模型训练的方法和系统，在高效训练模型的同时，增强模型在不同调度任务上的适应能力，实现任务突变情况下的自主决策和持续优化。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于竞争式元强化学习的作业车间调度方法和系统，能够提升泛化能力，支持在不同类型任务和环境中进行作业车间调度模型训练，增强模型在不同调度任务上的适应能力，实现任务突变情况下的自主决策和持续优化。

2、为了解决上述技术问题，本专利技术是这样实现的。

3、一种基于竞争式元强化学习的作业车间调度方法，包括：

4、生成多样化的任务库，通过随机设置不同的问题规模、处理时间分布和问题类型，使任务库中含有多种不同类型的调度任务所对应的车间环境；调度任务由作业集合和机器集合构成，每个作业包含一系列操作；所述问题规模指一个作业车间调度问题中所包含机器数量与作业数量的乘积；所述处理时间分布指一个操作在对应机器上处理完成所需的处理时间在初始化车间环境时随机采样所依据的随机分布类型；所述问题类型指初始化车间环境时对求解问题的设置类型；

5、构建调度模型，调度模型包括基于actor-critic框架的决策模型所设置的策略网络πθ、行为策略网络πθold和评价网络vφ；策略网络πθ中的参数θ和评价网络vφ中的参数φ组成调度模型的参数θ＝{θ,φ}；

6、并行训练多个调度模型：

7、在训练中，对于每个调度模型，从任务库中随机抽取一个调度任务使用所述行为策略网络πθold与环境交互生成支持集基于支持集进行元学习训练，计算内环损失，并基于内环损失进行调度模型的参数更新；更新后的参数记为θi′＝{θi′,φi′}；i表示调度任务的序号；

8、当针对特定调度任务的内环迭代次数达标，对于每个调度模型，各自利用在各任务上更新后的参数θi′构建新参数的策略网络与环境交互生成查询集基于查询集进行元学习训练，计算外环损失和元梯度，并对调度模型进行外环元更新；

9、选取本周期训练中的最佳调度模型，标记为优选者，其余为失败者；优选者参数保持不变；所有失败者的参数向优选者的参数方向更新；

10、进行多个周期的训练，最终得到具有较好学习效果的调度模型。

11、优选地，所述所有失败者的参数向优选者的参数方向更新为：设失败者的参数为θl，优选者的参数为θw；则将失败者的参数更新为θl+γ(θw-θl)；其中γ为调整因子。

12、优选地，定期更新任务库中的调度任务类型和数量。

13、优选地，所述作业车间环境采用；析取结构建模；析取图中，每个操作用一个节点来表示，节点间的先后顺序关系用有向弧来表示，无向弧则连接需要同一台机器进行处理的操作；调度过程为析取图中的所有无向弧标明方向，即指明需要同一台机器进行处理的操作的执行顺序。

14、本专利技术还提供了一种基于竞争式元强化学习的作业车间调度系统，包括任务库、调度模型、元强化学习训练模块、优选模块；

15、任务库，用于通过随机设置不同的问题规模、处理时间分布和问题类型，设置多种不同类型的调度任务对应不同车间环境；调度任务由作业集合和机器集合构成，每个作业包含一系列操作；所述问题规模指一个作业车间调度问题中所包含机器数量与作业数量的乘积；所述处理时间分布指一个操作在对本文档来自技高网...

【技术保护点】

1.一种基于竞争式元强化学习的作业车间调度方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述所有失败者的参数向优选者的参数方向更新为：设失败者的参数为Θl，优选者的参数为Θw；则将失败者的参数更新为Θl+γ(Θw-Θl)；其中γ为调整因子。

3.如权利要求1所述的方法，其特征在于，定期更新任务库中的调度任务类型和数量。

4.如权利要求1所述的方法，其特征在于，所述作业车间环境采用；析取结构建模；析取图中，每个操作用一个节点来表示，节点间的先后顺序关系用有向弧来表示，无向弧则连接需要同一台机器进行处理的操作；调度过程为析取图中的所有无向弧标明方向，即指明需要同一台机器进行处理的操作的执行顺序。

5.一种基于竞争式元强化学习的作业车间调度系统，其特征在于，包括任务库、调度模型、元强化学习训练模块、优选模块；

6.如权利要求5所述的系统，其特征在于，所述优选模块在将失败者的参数向优选者的参数方向更新时，设失败者的参数为Θl，优选者的参数为Θw；则将失败者的参数更新为Θl+γ(Θw-Θl)；其中γ为调整因子。

...

【技术特征摘要】

1.一种基于竞争式元强化学习的作业车间调度方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述所有失败者的参数向优选者的参数方向更新为：设失败者的参数为θl，优选者的参数为θw；则将失败者的参数更新为θl+γ(θw-θl)；其中γ为调整因子。

3.如权利要求1所述的方法，其特征在于，定期更新任务库中的调度任务类型和数量。

4.如权利要求1所述的方法，其特征在于，所述作业车间环境采用；析取结构建模；析取图中，每个操作用一个节点来表示，节点间的...

【专利技术属性】
技术研发人员：王钢，翁博熙，孙健，陈杰，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人