System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的柔性车间作业动态调度方法技术_技高网

一种基于深度强化学习的柔性车间作业动态调度方法技术

技术编号:41113913 阅读:11 留言:0更新日期:2024-04-25 14:05
本发明专利技术公开了一种基于深度强化学习的柔性车间作业动态调度方法,属于车间作业动态调度领域,该方法包括以作业总拖期时间最小化、作业最大完成时间最小化和平均机器利用率最大化为优化目标,得到多目标模型;利用析取图模型对动态作业车间调度问题进行抽象,得到调度状态;根据调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程,得到作业调度模型;获取新作业集合,并根据新作业集合,利用作业调度模型,得到调度计划表,完成柔性车间作业动态调度。本发明专利技术解决了现有技术中依赖调度规则而缺乏泛化性的问题。

【技术实现步骤摘要】

本专利技术属于车间作业动态调度领域,尤其涉及一种基于深度强化学习的柔性车间作业动态调度方法


技术介绍

1、在现代离散化定制制造业中,作业的随机到达、机器故障、订单取消或修改等随机事件和变化频繁发生。制造过程变得越来越精细,不同目标之间存在相互冲突的情况,需要同时优化这些目标。因此,车间调度的难度和复杂度也随之增加。传统的车间调度方法已经无法满足现代制造业的需求。此外,生产任务和生产资源的分配也需要根据实时需求进行灵活调整。

2、针对多目标动态柔性车间作业调度(modfjsp),国内外学者已提出了各种方法来解决这个问题,包括调度规则、遗传算法、粒子群优化算法、模拟退火算法等。尽管经过精心设计的调度规则适用于处理智能制造中的动态大规模问题,但是这些规则产生的解决方案质量仍未达到最优水平。此外,设计合适的优先调度规则需要大量的专家经验。相比之下,使用群智能算法可以通过复杂的搜索过程来探索解决方案空间,以找到高质量的解决方案。然而,当问题规模发生变化时,群智能算法需要重新迭代以寻找最优解决方案,这种方法不适用于实时调度。因此,在实际求解问题时,需要仔细权衡群智能算法的优缺点。

3、目前的研究工作主要分为两类:一类是采用启发式算法通过复杂的搜索过程来探索可能的解决方案;另一类是倾向于应用强化学习算法来选择适当的调度规则,以实现调度优化。然而,启发式算法在求解问题规模改变时需要重新迭代求解,这会浪费大量计算资源,不适合实时调度。而调度规则的设计过于依赖专家经验,而且选择相当有限,导致许多可能的高质量调度方案被忽视,且两类方法大多针对单目标问题。

4、深度强化学习方法是一种基于人工智能的学习方法,结合了深度学习和强化学习的技术,在求解组合优化问题取得了较大进展。针对柔性车间作业调度问题,深度强化学习方法通过训练智能调度智能体,使其能够从环境中观察状态并做出决策。该方法的核心思想是通过与环境的交互来优化调度策略,以最小化预设的多个优化目标。通过应用深度强化学习方法,制造业可以实现实时调度,并在同时优化多个目标的情况下进行操作。因此,为了能够适应作业的随机到达、机器故障以及订单取消或修改等实时变化,以及能够根据需要灵活调整生产任务和资源分配,迫切需要一种实时多目标实时重调度方法,该方法能够同时实现时间效率和解决方案质量。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的一种基于深度强化学习的柔性车间作业动态调度方法解决了现有技术中依赖调度规则而缺乏泛化性的问题。

2、为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于深度强化学习的柔性车间作业动态调度方法,包括以下步骤:

3、s1、以作业总拖期时间最小化、作业最大完成时间最小化和平均机器利用率最大化为优化目标,得到多目标模型;

4、s2、利用析取图模型对动态作业车间调度问题进行抽象,得到调度状态;

5、s3、根据调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程,得到作业调度模型;

6、s4、获取新作业集合,并根据新作业集合,利用作业调度模型,得到调度计划表,完成柔性车间作业动态调度。

7、本专利技术的有益效果为:本方法基于分层多智能体深度强化学习与局部搜索,利用分层多智能体深度强化学习方法,在动态柔性车间作业调度中做出最优决策;本方法允许根据需求灵活地选择优化目标,并通过智能体间的协作来实现目标的实时优化。同时,通过深度强化学习技术,智能体能够从环境中观察状态并学习最佳决策策略,以提高生产效率并降低成本。局部搜索技术能够在已有的调度方案中进行进一步的优化,提高解的质量。本方法满足动态变化的市场需求的同时,提高生产效率和降低成本,解决现有技术中依赖调度规则而缺乏泛化性的挑战。

8、进一步地,所述步骤s1中多目标模型的表达式为:

9、

10、其中,modfjsp为多目标模型;minimize为最小化函数;totaltard为作业总拖期时间;i为作业编号;n为作业数量;max为最大化函数;为第i个作业完成所有操作的时间;ni为第i个作业的总操作数;di为第i个作业的作业超期时间;makespan为第i个作业完成所有操作的最大完成时间;uave为平均机器利用率;m为机器数量;k为机器编号;j为第i个作业的操作编号;tijk为第i个作业的第j个操作在第k个机器的加工时间;xijk为第i个作业的第j个操作是否可以在第k个机器进行的标识符,如果可以,为1,否则,为0;time为环境当前时刻。

11、上述进一步方案的有益效果为:通过数学建模描述具有多种资源约束条件下的柔性车间作业调度问题,以优化作业加工顺序,最大程度地提高生产效率。

12、进一步地,所述步骤s2中调度状态的表达式为:

13、g=(n,m,c,ε0,g)

14、

15、其中,g为调度状态;n为操作节点;m为机器节点;c为有向弧;ε0为无向弧;g为优化目标节点;oij为第i个作业的第j个操作;i为作业编号;j为第i个作业的操作编号;start为处理时间为零的虚拟开始节点;end为结束节点。

16、上述进一步方案的有益效果为:调度状态以图形的方式清晰地展示了生产车间中各个任务和资源之间的复杂关系,通过节点和边的表示方式,直观呈现了任务的时序关系、资源的可用性以及其他重要约束。这种图形化建模使问题更加具体而易于理解,有助于问题的形式化描述和可视化分析。

17、进一步地,所述步骤s3具体为:

18、s301、获取实例数据;

19、s302、根据实例数据、调度状态和多目标模型,以优化目标为高层智能体,以作业和机器为低层智能体,利用马尔可夫决策过程对高层智能体和低层智能体进行训练,得到作业调度模型。

20、上述进一步方案的有益效果为:这种方法具有层次化优化、综合考虑多目标、学习和适应性强以及决策过程优化的优势,使模型能够更有效地应对复杂的作业调度问题,提高系统的鲁棒性和性能,通过学习和优化过程逐步提升决策策略,实现更智能和灵活的生产调度。

21、进一步地,所述步骤s302具体为:

22、s3021、对实例数据进行取样,得到取样数据;

23、s3022、以优化目标为高层智能体,以作业和机器为低层智能体;

24、s3023、根据高层智能体和低层智能体,基于调度状态和多目标模型进行目标选择,得到待优化目标;

25、s3024、利用调度状态,进行操作和机器对选择,得到操作机器对;

26、s3025、根据操作机器对,利用局部搜索法,更新操作机器对中操作的开始时间和结束时间;

27、s3026、根据待优化目标、操作机器对和操作机器对中操作的开始时间和结束时间,分别更新高层智能体的状态和低层智能体的状态;

28、s3027、根据待优化目标,计算奖励;<本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的柔性车间作业动态调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S1中多目标模型的表达式为:

3.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S2中调度状态的表达式为:

4.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S3具体为:

5.根据权利要求4所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S302具体为:

6.根据权利要求5所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S3023具体为:

7.根据权利要求5所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述S3024具体为:

8.根据权利要求5所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S3025具体为:

9.根据权利要求5所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,当待优化目标为作业总拖期时间最小化时,步骤S3027中奖励的表达式为:

10.根据权利要求7所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤S4中基于新作业集合,利用作业调度模型,得到调度计划表的过程中,在对操作机器对进行选择时,以操作机器对选择概率最大为选择标准。

...

【技术特征摘要】

1.一种基于深度强化学习的柔性车间作业动态调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤s1中多目标模型的表达式为:

3.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤s2中调度状态的表达式为:

4.根据权利要求1所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤s3具体为:

5.根据权利要求4所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于,所述步骤s302具体为:

6.根据权利要求5所述基于深度强化学习的柔性车间作业动态调度方法,其特征在于...

【专利技术属性】
技术研发人员:吴庆涛曲浩凯赵旭辉张明川朱军龙冀治航郑瑞娟刘牧华冯嘉美
申请(专利权)人:河南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1