基于深度强化学习的分布式柔性作业车间调度方法及设备技术

技术编号：42671125 阅读：18 留言：0更新日期：2024-09-10 12:25

本发明专利技术提供了基于深度强化学习的分布式柔性作业车间调度方法及设备。所述调度方法包括:步骤S1，获取工件信息和生产环境信息；步骤S2，基于工件信息和生产环境信息，第一智能体为各加工单位分配工件，获得工件分配信息，第一智能体配置训练好的工件分配策略网络；步骤S3，基于加工单位的工件分配信息和生产环境信息，第二智能体为加工单位内的工件分配加工顺序，以及为工件的每个工序分配机器，第二智能体配置训练好的作业排序‑机器分配策略网络。第一智能体和第二智能体组成了多层智能体结构，训练获得的工件分配策略网络和作业排序‑机器分配策略网络，能够快速有效地得到高质量的解，提高了泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能制造，尤其涉及基于深度强化学习的分布式柔性作业车间调度方法及设备。

技术介绍

1、在调度问题中，分布式柔性作业车间调度问题(distributedflexible job shopscheduling problem，dfjsp)是柔性作业车间调度问题(flexible job shop schedulingproblem，fjsp)的一个拓展问题。随着市场经济的发展，目前制造企业需要逐渐从单一工厂制造转变为分布式制造，多个工厂协调制造，提高制造效率。而分布式柔性作业车间调度问题dfjsp结合了分布式制造和柔性作业车间的特点，以适应现代制造业对灵活性和效率的高要求。图2展示了现有的分布式柔性作业车间，其生产活动分布在多个工厂或车间中。每一个工厂或车间就相当于一个独立的柔性作业车间，一个工厂或车间其中的工序排序和机器选择问题就相当于一个柔性作业车间调度问题fjsp。从图2可以看出，相较于柔性作业车间调度问题fjsp需要研究的作业排序和机器选择的内容，分布式柔性作业车间调度问题dfjsp还需要研究如何分配作业到合适的工厂的内容。

2、针对分布式柔性作业车间调度问题dfjsp，传统的数学精确算法、启发式算法，以及元启发式算法等优化算法被广泛应用。

3、精确算法旨在找到最优的调度方案，这些算法通常基于数学模型和优化理论，精确算法主要包括数学规划法，拉格朗日松弛法，分支定界法、割平面法、整数线性规划，混合线性规划等。精确算法的应用是从理论上找到最优的调度方案，但是代价是计算复杂，运算量随着问题规模

4、为解决上述问题，开发了启发式算法和元启发式算法等近似方法。启发式算法是一组具有指导性质的规则集合，这些规则可以指导算法的搜索方向。尽管启发式算法无法保证找到全局最优解，但在实际应用中，它们可以提供高效且可行的解决方案，从而提高调度效率和资源利用率。这些规则可能基于问题的特性或先前的经验，这类算法求解效率高，对于问题规模不敏感，计算复杂度不会随着问题规模的变大而急剧变大，所以对于问题规模大的情况依旧可行但求解质量一般。

5、元启发式算法也可称之为智能优化算法，这一类算法是通过不同的优化迭代算子在作业车间调度问题的解空间中获得局部最优解。常见的元启发式算法有遗传算法(ga)、粒子群优化算法(pso)、蚁群优化算法(aco)等。元启发式算法的计算量普遍较大，并且无法像预训练模型那样进行参数化存储，因此每次优化都需要从头开始执行，导致时间响应较长。

6、总之，传统优化算法可以在一定程度上提高精确度，但在时间响应和算法泛化性方面往往无法满足实际分布式柔性车间调度场景的要求。在大规模问题下，传统优化算法的泛化性能较差，对于大规模的调度问题，解空间的质量不如意。

技术实现思路

1、本专利技术旨在解决传统优化方法在解决分布式柔性作业车间调度问题dfjsp时存在时间响应慢、泛化性能较差，以及对于大规模的调度问题存在解空间的质量不如意的技术问题，提供基于深度强化学习的分布式柔性作业车间调度方法及设备。

2、为了实现本专利技术的上述目的，根据本专利技术的第一个方面，本专利技术提供了基于深度强化学习的分布式柔性作业车间调度方法，包括：步骤s1，获取工件信息和生产环境信息；步骤s2，基于工件信息和生产环境信息，第一智能体为各加工单位分配工件，获得工件分配信息，其中，所述第一智能体配置训练好的工件分配策略网络；步骤s3，基于加工单位的工件分配信息和生产环境信息，第二智能体为加工单位内的工件分配加工顺序，以及为工件的每个工序分配机器，所述第二智能体配置训练好的作业排序-机器分配策略网络。

3、为了实现本专利技术的上述目的，根据本专利技术的第二个方面，本专利技术提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现本专利技术第一方面的基于深度强化学习的分布式柔性作业车间调度方法的步骤。

4、为了实现本专利技术的上述目的，根据本专利技术的第三个方面，本专利技术提供了一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术第一方面所述的基于深度强化学习的分布式柔性作业车间调度方法。

5、本专利技术的有益技术效果：根据分布式柔性作业车间调度问题dfjsp的特点，将dfjsp问题的求解过程分解为加工单位外部工件分配问题，以及加工单位内部的工件排序和工序机器选择问题，利用第一智能体预先训练好的工件分配策略网络为加工单位分配工件，利用第二智能体预先训练好的作业排序-机器分配策略网络实现加工单位内部的工件加工排序和为工序分配机器，第一智能体和第二智能体组成了多层智能体结构，并共同决策，将工件分配加工单位的过程和加工单位内部工件作业排序-机器选择过程联系起来，比起这两个过程分别使用单一的调度规则来说会得到更好的解；通过一定规模数据训练获得的工件分配策略网络和作业排序-机器分配策略网络，不仅可以直接应用到同规模下的实例上，还可以应用到其他规模下的实例上，并获得不错的效果，提高了泛化性，并且训练好的工件分配策略网络和作业排序-机器分配策略网络面对新的实例，能够快速有效地得到高质量的解。

本文档来自技高网...

【技术保护点】

1.基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，包括:

2.如权利要求1所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述工件分配策略网络包括依次连接的第一GRU单元和第一注意力机制单元。

3.如权利要求1或2所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述步骤S2包括：

4.如权利要求3所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述工件分配策略网络的训练过程包括：

5.如权利要求4所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述第一Critic网络包括依次连接的第三GRU单元和第三注意力机制单元。

6.如权利要求4或5所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，决策点t的折扣奖励计算公式为：

7.如权利要求1或2或4或5所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述步骤S3包括：

8.如权利要求7所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所

9.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-8之一所述方法的步骤。

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，包括:

2.如权利要求1所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述工件分配策略网络包括依次连接的第一gru单元和第一注意力机制单元。

3.如权利要求1或2所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述步骤s2包括：

4.如权利要求3所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述工件分配策略网络的训练过程包括：

5.如权利要求4所述的基于深度强化学习的分布式柔性作业车间调度方法，其特征在于，所述第一critic网络包括依次连接的第三gru单元和第三注意力机制单元。...

【专利技术属性】
技术研发人员：蔡斌，牛清正，段成源，李东，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人