基于深度强化学习的制造类型企业生产车间调度优化方法技术

技术编号：42330290 阅读：12 留言：0更新日期：2024-08-14 16:07

本发明专利技术公开了一种基于深度强化学习的制造类型企业生产车间调度优化方法，包括：对企业生产车间加工过程进行建模，获得车间调度数学模型；基于车间调度数学模型获得调度目标函数；获取若干个制造类型企业生产车间实例，采用异构图表示制造类型企业生产车间调度的状态；设计并构建制造类型企业生产车间调度的深度强化学习模型，基于异构图、调度目标函数对深度强化学习模型进行训练；实时获取车间状态信息，通过训练得到的深度强化学习模型获得优化调度方案。本发明专利技术的优化目标是总加工成本，有助于丰富深度强化学习求解生产车间调度问题的研究内容和视角，为学术界和工业界提供新的思路和解决方案，拓展深度强化学习在实际问题中的应用范围。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于装备制造企业生产车间的调度，尤其涉及一种基于深度强化学习的制造类型企业生产车间调度优化方法。

技术介绍

1、生产调度是制造系统中的重要组成部分，研究生产车间调度问题有助于充分利用生产作业车间的资源，避免生产过程中的瓶颈和浪费，提高生产车间的整体运行效率。生产车间调度问题的求解方法包括启发式规则、启发式算法、深度强化学习算法等。

2、启发式规则是指基于经验和专业知识制定的简单、直观的规则，用于指导问题求解和决策过程，常用的启发式规则包括最短加工时间优先、最长加工时间优先、最短剩余加工时间优先等。启发式规则相对简单，在一些简单和中小规模的问题中能够快速产生可行的解决方案，但是受到启发式选择的限制，无法全面考虑所有可能的解决方案，在一些复杂问题和大规模问题中难以保证求解的有效性和优质性。

3、启发式算法是基于直观或经验构造的算法，在可接受的指计算时间和空间下给出待解决组合优化问题的一个可行解。jiang等人提出了一种新颖的改进交叉人工蜂群算法，用于求解流程复杂的柔性作业车间中航空航天复杂部件的节能调度问题。zhang等人研究的是一个有两个相邻工作区的柔性制造系统中的生产调度问题，提出了一种分布式蚁群系统来解决问题，将与顺序相关的操作设置时间和机器之间的作业转换时间与加工时间分开考虑。chen等人提出了一种新的遗传算法近似非支配排序遗传算法iii(ansga-iii)，该算法受到非支配排序遗传算法iii(nsga-iii)的启发，增强了进化算法解决问题的能力，建立了生产调度和精确维护的综合多目标优化

4、生产调度问题可以看作是强化学习中的环境，智能体可以通过合理的行动和状态设计以及与环境的交互，通过大量的离线训练来学习策略。这种新思路为解决调度问题，尤其是对实时性要求较高的不确定动态问题提供了一种新方法。深度强化学习(deepreinforcement learning，drl)是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力。目前使用drl方法求解作业车间调度问题的研究的优化目标主要是最小化最大完工时间(makespan)，还包括最大化机器利用率、最小化延迟率、最小化订单等待时间、最小化总延迟时间等，使用drl方法实现最小化总加工成本这个目标的研究较少。本算法采用drl方法求解生产车间调度问题，力求使所得调度方案的总加工成本最小化，有助于节约企业的生产成本、优化资源配置，促进可持续发展。

技术实现思路

1、为解决上述技术问题，本专利技术提出了一种基于深度强化学习的制造类型企业生产车间调度优化方法，以解决上述现有技术存在的问题。

2、为实现上述目的，本专利技术提供了一种基于深度强化学习的制造类型企业生产车间调度优化方法，包括：

3、可选的，对企业生产车间加工过程进行建模，获得车间调度数学模型；基于所述车间调度数学模型获得调度目标函数；

4、获取若干个制造类型企业生产车间实例，采用异构图表示制造类型企业生产车间调度的状态；设计并构建制造类型企业生产车间调度的深度强化学习模型，基于所述异构图、所述调度目标函数对深度强化学习模型进行训练；

5、实时获取车间状态信息，通过训练得到的深度强化学习模型获得优化调度方案。

6、可选的，所述车间调度数学模型包括基础定义、调度约束条件；以订单信息、订单工序、机器信息为中心构建所述基础定义，所述基础定义包括集合符号定义、常量符号定义、决策变量符号定义，集合符号定义包括订单集合、机器集合、工序集合。

7、可选的，所述调度约束条件表示如下：

8、

9、

10、

11、

12、cti,j≤sti,j+1

13、xi,j,l≤ri,j,l

14、

15、xi,j,l×xu,v,l×yi,j,u,v(stu,v-cti,j)(1-yu,v,i,j)≥0

16、yi,j,u,v+yu,v,i,j＝0

17、其中，cti,j为工序oi,j加工的完成时间，sti,j为工序oi,j加工的开始时间，xi,j,l为工序oi,j是否在机器ml上加工，ti,j,l为工序oi,j在机器ml上的加工时间，cti为订单i完成时间，表示订单i最后一道工序的完成时间，yi,j,u,v表示两个工序按照先后顺序在同一台机器进行，di为订单i的交货期，sti,j+1表示工序oi,j的后序工序加工的开始时间。

18、可选的，以最小化总加工成本为目标函数，根据所述车间调度数学模型获得目标函数表达式如下：

19、

20、其中，xi,j,l为工序oi,j是否在机器ml上加工，ti,j,l为工序oi,j在机器ml上的加工时间，ci,j,l为订单i中零部件/装配件在机器ml上的单位时间加工成本，oni为工序数量、n为订单数量、m为机器数量。

21、可选的，所述深度强化学习模型将制造类型企业生产车间调度问题描述为马尔科夫决策过程，深度强化学习模型包括状态集、动作集、奖励函数、策略、状态转换的定义。

22、可选的，所述深度强化学习模型提取工序原始特征、机器原始特征、o-m弧原始特征并进行标准化处理后，利用异构图神经网络和多层感知机来编码工序和机器的状态信息，生成状态编码；基于所述状态编码，通过策略生成网络与价值网络分别获得动作选择概率与动作价值，根据所述策略选择当前状态下执行的动作，动作执行后状态进行过渡，根据奖励函数计算动作奖励并反馈至智能体，重复以上步骤，直至全部实例的对应工序分配完成。

23、可选的，所述深度强化学习模型获得状态编码的过程包括：

24、基于异构图获得工序原始特征、机器原始特征、o-m弧原始特征并进行标准化处理后，通过图注意力机制获得机器节点编码；工序节点、前序工序节点、后序工序节点与所述机器节点编码分别经过mlp，将mlp的输出经连接通过激活函数、综合mlp得到工序节点编码；基于工序节点编码和机器节点编码经过均值池化后拼接获得状态编码。

25、可选的，所述奖励函数r(st,at,st+1)＝cost(st)-cost(st+1)-超期时间*a，cost是按当前步进行调度计算获得的加工成本，其中，已调度工序按实际加工成本计算，未调度工序按平均加工成本计算，平均加工成本为可实施对应工序的各个机器的加工成本的平均值，st为步骤t时的状态，超期时间是每个工作预计结束时间超出该工作交货期的时间之和，a是超期惩罚项的系数。

26、与现有技术相比，本专利技术具有如下优点和技术效果：

27、本专利技术提供了一种基于深度强化学习的制造类型企业生产车间调度优化方法，对企业本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

3.根据权利要求2所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

4.根据权利要求1所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

5.根据权利要求1所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

6.根据权利要求5所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

7.根据权利要求6所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

8.根据权利要求5所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

【技术特征摘要】

1.一种基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

3.根据权利要求2所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

4.根据权利要求1所述的基于深度强化学习的制造类型企业生产车间调度优化方法，其特征在于，

...

【专利技术属性】
技术研发人员：李雪，李玲菲，徐汉川，聂兰顺，战德臣，陈龙，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人