System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种订单随机到达的不稳定混合作业车间动态调度方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种订单随机到达的不稳定混合作业车间动态调度方法及系统技术方案

技术编号:43034564 阅读:3 留言:0更新日期:2024-10-18 17:37
本发明专利技术公开了一种订单随机到达的不稳定混合作业车间动态调度方法及系统,在模型建立阶段,建立端到端的马尔可夫决策过程,通过设置基于阶段的多个智能体,避免大规模问题因素下的动作和状态空间快速膨胀,保证合理训练时间。在Q‑网络训练阶段,设置记忆回放缓冲区机制以收集训练数据,根据订单到达时间和机器故障时间判断重调度时机,利用基于贪婪规则的动作选择策略实现状态空间的充分探索,引入双层动作空间确定操作执行顺序和位置。在Q‑网络测试阶段,输入一定规模测试算例,利用训练完成的网络,产生解决方案。本发明专利技术旨在最小化最大完工时间和总能耗,在智能制造领域有广泛的应用价值和使用前景。

【技术实现步骤摘要】

本专利技术属于智能制造和调度优化的,主要涉及了一种订单随机到达的不稳定混合作业车间动态调度方法及系统


技术介绍

1、调度问题是指在满足特定要求的前提下研究如何分配有限资源的问题。车间调度问题涉及的变量通常是离散型变量,其数学规划模型具有建模困难、约束条件多、解空间庞大和计算复杂等特点。作业车间调度问题(job shop scheduling problem)是最典型的车间调度模型之一。在jsp问题中,加工任务被称为“工件”,每个工件都按照一定数量工序但不同的工序顺序进行加工。随着生产调度问题复杂性的提高,解决复杂车间类型调度问题的重要性日益显现。混合作业车间调度(hybrid job shop scheduling problem)是并行机调度和作业车间调度的结合调度类型。它允许一道工序有多台并行候选机器可以用于加工,并且并行机器间异构。

2、动态作业车间调度问题(dynamic job shop scheduling problem,dfjsp)是在传统固定调度模式基础上,考虑实际生产环境中的各种突发事件,如机器故障、紧急订单插入、交货期变更和加工时间变化等问题,是一种更加广泛且契合实际生产情况的调度问题,已成为调度研究领域的热点之一。因此,研究动态调度问题具有重要的理论意义和工程价值。动态调度问题的研究对提高生产车间效率具有非常重要的意义,稳定高效的动态调度算法能够极大降低生产过程中遇到突发事件时的成本损耗。然而,作为一种强np难问题,针对动态调度的稳定高效求解方法仍然是目前研究的难点。通常解决dfjsp问题的方法包括调度规则、元启发式算法和机器学习算法等。近年来,随着人工智能技术的不断发展,深度强化学习算法为解决复杂、不确定环境下的调度问题提供了新思路。

3、深度强化学习(deep reinforcement learning,drl)是一种机器学习方法,通过与环境的互动来学习行为策略。drl的核心概念包括智能体、环境、状态、动作、奖励的设计以及神经网络的训练。智能体通过训练好的神经网络选择并执行动作,与环境互动,并根据从环境中获得的奖励调整其策略,以最大化累计奖励。在调度问题研究中,drl被广泛应用于解决复杂和动态的调度问题。例如,在动态柔性作业车间调度问题中,drl可以帮助智能体学习在不同突发事件下如何最优地分配资源和安排任务,以提高生产效率和应对不确定性。通过不断尝试和调整策略,drl能够找到更优的调度方案,减少生产过程中的延迟和成本。然而,现阶段在调度问题研究中应用强化学习仍面临一些挑战。首先,调度问题的状态空间和动作空间通常非常庞大,导致drl算法的训练过程需要大量的计算资源和时间。其次,实际生产环境中的不确定性和复杂性增加了drl算法设计和调试的难度。最后,如何设计有效的奖励函数,以引导智能体学习到符合实际需求的调度策略,也是一个重要的研究难题。因此,尽管深度强化学习在调度问题研究中展现了巨大的潜力,但仍需进一步探索和优化其应用方法。


技术实现思路

1、本专利技术正是针对现有技术中存在的问题,提供一种订单随机到达的不稳定混合作业车间动态调度方法及系统,在模型建立阶段,建立端到端的马尔可夫决策过程,通过设置基于阶段的多个智能体,避免大规模问题因素下的动作和状态空间快速膨胀,保证合理训练时间。在q-网络训练阶段,设置记忆回放缓冲区机制以收集训练数据,根据订单到达时间和机器故障时间判断重调度时机,利用基于贪婪规则的动作选择策略实现状态空间的充分探索,引入双层动作空间确定操作执行顺序和位置。在q-网络测试阶段,输入一定规模测试算例,利用训练完成的网络,产生解决方案。本专利技术旨在最小化最大完工时间和总能耗,在智能制造领域有广泛的应用价值和使用前景。

2、为了实现上述目的,本专利技术采取的技术方案是:一种订单随机到达的不稳定混合作业车间动态调度方法,至少包含模型建立阶段、q-网络训练阶段、q-网络测试阶段;

3、a.模型建立阶段:将调度问题建模为基于多智能体的马尔科夫决策过程(mdp),表示为m(s,a,p,r);其中,s代表智能体在环境中的实时状态,a表示动作的集合,p给出状态s采取动作a后的状态转移概率分布,r作为回报或奖励,发生在状态执行动作之后;通过设置基于阶段的多个智能体,避免动作和状态空间快速膨胀,保证训练时间;

4、b.q-网络训练阶段:结合q-目标值网络,设计基于奖励的损失函数并利用经验重放机制,完成输入为状态特征、输出为动作选择概率的q-当前值网络参数的训练;所述训练过程中,设置记忆回放缓冲区机制以收集训练数据,根据订单到达时间和机器故障时间判断重调度时机;引入双层动作执行策略确定操作执行位置和顺序;利用基于贪婪规则的动作选择策略实现状态空间的充分探索;

5、c:q-网络测试阶段:输入测试算例后,在每个阶段根据操作的到达时间,动态的利用训练好的神经网络进行操作和机器的选择,执行多次直到所有操作加工完成。

6、作为本专利技术的一种改进,所述模型建立阶段中,智能体为混合作业车间生产模式中的一个阶段;所述状态的输入特征至少包括当前阶段的等待操作、机器空闲时间和部分可行解;所述动作空间被设计为分层多动作空间,表示为a=aop×amac,其中aop代表操作动作空间,amac代表机器动作空间;阶段通过深度神经网络选择动作并执行,由状态sk,i转移为下一个状态sk,i+1,在状态转移发生后对机器释放/空闲时间、作业的操作完成进展和操作完工时间变量进行数值更新;当状态从sk,i转移到sk,i+1时,智能体从环境中获得奖励,所述奖励基于机器空闲时间和加工时间,实现最大完工时间和总能耗最小化。

7、作为本专利技术的另一种改进,所述q-网络训练阶段具体包括如下步骤:

8、b1:初始化网络参数,设置一个大小为sizeb的缓存区b存放训练数据;设置抽样的批大小length;

9、b2:根据调度问题样本,确定每个阶段的初始状态sk,i和初始动作空间ak,i,初始状态特征中的部分可行解向量值初始化为0;

10、b3:对于状态为sk,i,若有新操作到达,则将新操作加入操作动作空间中等待加工;

11、b4:利用ε-贪婪策略选择动作ak,i,以ε的概率随机选择动作;以1-ε的概率利用q-当前值网络得到操作和机器动作空间概率分布qop(sk,i;aopk,i;θop)和qmac(sk,i;amack,i;θmac),进而选择概率最大的动作;

12、b5:执行动作ak,i,更新阶段k的机器完工时间、阶段完工时间、工件完工时间变量值;

13、b6:若机器发生故障,则根据机器是否空闲选择是否进行操作的重调度;

14、b7:计算奖励rk,i,完成状态sk,i到k,i+1的转换,并将录(sk,i,ak,i,rk,i,sk,i+1)放入缓存区b内;

15、b8:如果记录数量大于length,则随机抽取length个记录;对于每个记录,在两个q-目标值网络中输入sk,本文档来自技高网...

【技术保护点】

1.一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:至少包含模型建立阶段、Q-网络训练阶段、Q-网络测试阶段;

2.如权利要求1所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述模型建立阶段中,智能体为混合作业车间生产模式中的一个阶段;所述状态的输入特征至少包括当前阶段的等待操作、机器空闲时间和部分可行解;所述动作空间被设计为分层多动作空间,表示为A=Aop×Amac,其中Aop代表操作动作空间,Amac代表机器动作空间;阶段通过深度神经网络选择动作并执行,由状态sk,i转移为下一个状态sk,i+1,在状态转移发生后对机器释放/空闲时间、作业的操作完成进展和操作完工时间变量进行数值更新;当状态从sk,i转移到sk,i+1时,智能体从环境中获得奖励,所述奖励基于机器空闲时间和加工时间,实现最大完工时间和总能耗最小化。

3.如权利要求1所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述Q-网络训练阶段具体包括如下步骤:

4.如权利要求3所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤B3中,判断状态sk,i是否有新操作到达的标准是:操作的到达时刻小于等于该状态下阶段中所有机器的最小完工时间,若有新操作到达,则加入到操作动作空间Aopk,i中,成为状态sk,i发生转移过程中的候选动作之一。

5.如权利要求4所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤B4中,利用ε-贪婪策略选择动作,具体步骤为:

6.如权利要求5所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤B5中,更新阶段k的机器完工时间、阶段完工时间、工件完工时间变量值的具体步骤为:

7.如权利要求6所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤B6中是否进行操作的重调度的具体步骤为:

8.如权利要求7所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤B9中,根据Q-当前值和Q-目标值计算损失函数,其公式如下:

9.一种订单随机到达的不稳定混合作业车间动态调度系统,包括计算机程序,其特征在于:所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。

...

【技术特征摘要】

1.一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:至少包含模型建立阶段、q-网络训练阶段、q-网络测试阶段;

2.如权利要求1所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述模型建立阶段中,智能体为混合作业车间生产模式中的一个阶段;所述状态的输入特征至少包括当前阶段的等待操作、机器空闲时间和部分可行解;所述动作空间被设计为分层多动作空间,表示为a=aop×amac,其中aop代表操作动作空间,amac代表机器动作空间;阶段通过深度神经网络选择动作并执行,由状态sk,i转移为下一个状态sk,i+1,在状态转移发生后对机器释放/空闲时间、作业的操作完成进展和操作完工时间变量进行数值更新;当状态从sk,i转移到sk,i+1时,智能体从环境中获得奖励,所述奖励基于机器空闲时间和加工时间,实现最大完工时间和总能耗最小化。

3.如权利要求1所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述q-网络训练阶段具体包括如下步骤:

4.如权利要求3所述的一种订单随机到达的不稳定混合作业车间动态调度方法,其特征在于:所述步骤...

【专利技术属性】
技术研发人员:牛唯姚瑶陈龙李雪李小平
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1