基于图神经网络的涂料车间智能排程方法技术

技术编号：40794736 阅读：32 留言：0更新日期：2024-03-28 19:23

本发明专利技术实施例提供一种基于图神经网络的涂料车间智能排程方法，包括以下步骤：步骤一：在一个动作完成时或者初始状态时，强化学习根据当前的状态并结合训练的策略做出行动，步骤二：行动将一个目前仍未分配机器的工单分配给一个空闲的机器，步骤三：根据迁移矩阵和行动的选择将状态更新到行动执行之后的状态，步骤四：根据更新的状态判定本次行动的奖励，步骤五：通过奖励的增减来修正策略中每个行动的概率分布，通过Q‑Learning结合softmax激活层实现策略的学习，步骤六：重复步骤一至步骤五直到所有工单都被分配到可用的机器上，通过以上方法在保持高效率的同时能够取得更好的调度性能，并且能够有效地推广到训练中未见的更大规模的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体地涉及一种基于图神经网络的涂料车间智能排程方法。

技术介绍

1、生产排程问题由于业务应用广但本身计算的复杂度高，始终是各类精确算法和启发式算法研发的主要应用场景，而涂料车间的智能排程属于其中最为复杂的fjsp问题，每个需要排程的工单可以在多种机器上加工，同时还具有涂料的特殊约束即颜色的加工顺序，当同一机器上连续加工的两个工单，往往希望颜色为由浅至深，否则需要添加额外的清洗时间，这使得算法模型的更为复杂，在大规模的生产车间，很难在有效的时间内得到最优的可行解；目前现有解决方法一般分为以混合整数规划为代表的精确算法和以遗传、退火、蚁群等元启发算法为代表的非精确算法以及基于过往历史经验的纯规则式算法；

2、精确算法由于fjsp问题的复杂度，尤其在涂料车间中，还涉及到加工顺序的要求，这导致问题的复杂度进一步上升，常常需要几个小时甚至超过一天的求解时间才能解出可以接受的方案，这在经常需要动态调整计划的车间排程中，是绝对难以接受的；而元启发算法和纯规则式算法，虽然在时间上可以满足需求，但给出的排程方案质量过于依赖对于问题的过往经验，往往车间的生产参数或者工单的构成发生变化时，求解的质量会大幅下降，不具备迁移能力和应变能力；

3、有鉴于此，需要设计一种能够克服上述技术难题、有效解决或缓解上述技术难题的基于图神经网络的涂料车间智能排程方法。

技术实现思路

1、本专利技术所要解决的基本技术问题是提供一种基于图神经网络的涂料车间智能排程方法，该方法能够

2、进一步地，该方法在策略训练的过程中，完全不依赖和对生产的专业理解，通过小批量的数据就可以训练出排程模型来解决更大规模更加复杂的问题。

3、此外，该方法强化学习使用图神经网络对整个生产过程进行模拟，成功实现了模型的迁移性，由于图神经网络能够对于每个工单进行分类，并提取到生产网络中工单与机器之间的关联，这使得本专利技术在迁移到不同的车间时，即使机器数量和工单数量发生变化时，仍能通过学习到的节点分类和节点之间的关联，使得模型在新车间中有良好的求解性能，从而在保持高效率的同时能够取得更好的调度性能，并且能够有效地推广到训练中未见的更大规模的问题。

4、为了解决上述问题，本专利技术提供一种基于图神经网络的涂料车间智能排程方法，包括以下步骤：

5、步骤一：在一个动作完成时或者初始状态时，强化学习根据当前的状态并结合训练的策略做出行动；

6、步骤二：行动将一个目前仍未分配机器的工单分配给一个空闲的机器；

7、步骤三：根据迁移矩阵和行动的选择将状态更新到行动执行之后的状态；

8、步骤四：根据更新的状态判定本次行动的奖励；

9、步骤五：通过奖励的增减来修正策略中每个行动的概率分布，通过q-learning结合softmax激活层实现策略的学习；

10、步骤六：重复步骤一至步骤五直到所有工单都被分配到可用的机器上。

11、具体地，所述状态由当前所有工单和机器的信息构成的有向异构图确定，所述有向异构图包括弧、连接在弧一端的工单节点和连接在弧远离工单节点一端的机器节点。

12、优选地，在所述步骤一中强化学习根据当前的系统状态结合策略做出行动之前通过图注意力网络提取有向异构图中的特征，将强化学习无法识别的有向异构图中的图结构信息转化为可用于强化学习的固定维度特征化向量。

13、具体优选地，所述图注意力网络提取有向异构图中的特征，将强化学习无法识别的有向异构图中的图结构信息转化为可用于强化学习的固定维度特征化向量包括以下步骤：

14、a：分别将每个机器节点的特征和工单节点的特征编码为一维向量vk和ui，所述vk为机器节点的特征，所述ui为工单节点的特征；

15、b：使用两个线性变换wm和wo来处理机器节点的特征vk和工单节点ui的特征；

16、c：将处理后的机器节点和操作节点的特征进行拼接，并输入到一个多层感知机中，计算出每个操作节点的注意力系数eik，所述eik为leakyrelu(at[wmvk||woui])；

17、d：使用softmax函数对所有的eik进行归一化，得到归一化的注意力系数αik；

18、e：使用邻接矩阵来表示图的整体性质；

19、f：根据邻接矩阵将操作节点的特征按照注意力系数加权求和，并加上机器节点的特征，得到了机器节点结合了相邻工单节点的特征向量v′k，用于强化学习的神经网络构建。

20、具体地，所述

21、所述σ为激活函数，所述激活函数为sigmoid函数或者relu函数；

22、所述α为多层感知机的权重；

23、所述||为向量的拼接操作。

24、具体地，所述步骤四中根据更新的状态判定本次行动的奖励包括以下步骤：

25、a：在行动执行之后，模型比较前后两个状态；

26、b：通过奖励公式计算出奖励并更新。

27、具体地，所述奖励公式为r(st,at,st+1)＝cmax(st+1)-cmax(st)用来计算出两个状态最终完成时所用的时间差值。

28、进一步具体地，，所述奖励公式中cmax为最后一道工序完工的时间，所述cmax包含加工时间和换型时间，所述st为行动前的状态，所述st+1为行动后的状态，所述r(st,at,st+1)为行动前的状态和行动后的状态最终完成时的用时的差值，所述at为当前动作。

29、具体地，所述策略为在一个状态下选择各个行动的概率分布，所述在一个状态下选择各个行动的概率分布为π(at|st)。

30、具体地，所述强化学习包括以下步骤:

31、步骤一：在每次返回奖励时进行迭代更新，通过不断迭代更新值函数的参数；

32、步骤二：通过q-learning逐渐收敛到最优的值函数，并得到一个概率分布策略。

33、进一步具体地，所述值函数为q(st,at)；

34、所述q(st,at)＝q(st,at)+α(r+γmax(q(st+1,at+1)-q(st,at))；

35、所述π(at|st)＝exp(q(st,at)/τ)/∑(exp(q(s,a′)/τ)；

36、所述at+1为下一个动作；

37、所述a′为所有可能的动作；

38、所述α为学习率，所述学习率为一个固定的常数；

39、所述γ为衰减因子；

40、所述τ为softmax中控制分布平滑程度的超参数。

41、通过本专利技术的上述基本技术方案，本专利技术的基于图神经网络的涂料车间智能排程方法通过使用图神经网络对整个生产过程进行模拟，成功实现了模型的迁移性，通过图神经网络能够对每个工单节点进行分类并提取到生产网络中工单节点和机器节本文档来自技高网...

【技术保护点】

1.一种基于图神经网络的涂料车间智能排程方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，在所述步骤一中强化学习根据当前的系统状态结合策略做出行动之前通过图注意力网络提取有向异构图中的特征，将强化学习无法识别的有向异构图中的图结构信息转化为可用于强化学习的固定维度特征化向量。

3.根据权利要求2所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述图注意力网络提取有向异构图中的特征，将强化学习无法识别的有向异构图中的图结构信息转化为可用于强化学习的固定维度特征化向量包括以下步骤：

4.根据权利要求3所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述

5.根据权利要求1所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述步骤四中根据更新的状态判定本次行动的奖励包括以下步骤：

6.根据权利要求5所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述奖励公式为r(st，at，st+1)＝Cmax(st+1)-Cmax(s

7.根据权利要求6所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述奖励公式中Cmax为最后一道工序完工的时间，所述Cmax包含加工时间和换型时间，所述st为行动前的状态，所述st+1为行动后的状态，所述r(st，at，st+1)为行动前的状态和行动后的状态最终完成时的用时的差值，所述at为当前动作。

8.根据权利要求1所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述策略为在一个状态下选择各个行动的概率分布，所述在一个状态下选择各个行动的概率分布为π(at|sT)。

9.根据权利要求1所述的一种基于图神经网络的涂料车间智能排程方法，所述强化学习包括以下步骤：

10.根据权利要求9所述的一种基于图神经网络的涂料车间智能排程方法，

...

【技术特征摘要】

1.一种基于图神经网络的涂料车间智能排程方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述

5.根据权利要求1所述的一种基于图神经网络的涂料车间智能排程方法，其特征在于，所述步骤四中根据更新的状态判定本次行动的奖励包括以下步骤：

6.根据权利要求5所述的一种基于图神经...

【专利技术属性】
技术研发人员：张伟，王海洋，杨巍，李彬，魏晓琪，范甜甜，
申请(专利权)人：中海油信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人