一种基于Conv-Dueling与泛化表征的动态车间调度方法技术

技术编号:38465269 阅读:5 留言:0更新日期:2023-08-11 14:42
本发明专利技术公开了一种基于Conv

【技术实现步骤摘要】
一种基于Conv

Dueling与泛化表征的动态车间调度方法


[0001]本专利技术属于动态调度生产决策领域,用于柔性作业车间的物料调度任务,具体涉及一种基于深度强化学习的Conv

Dueling与泛化表征的动态调度方法。

技术介绍

[0002]柔性作业车间中的物料调度技术是指利用计算机技术和人工智能算法,对车间物料进行实时监控、调度和优化的过程。其目的是提高车间物料的使用效率,减少生产过程中的浪费和成本,从而实现生产效益最大化。物料调度技术可以应用于多个领域,包括制造业、物流和仓储等领域。在制造业中,物料调度技术可以优化生产流程,提高生产效率和质量,降低成本。但由于现实环境复杂且扰动因素繁多,大部分车间调度算法的求解性能差,难以满足生产过程中的高效、准时与稳定等要求。因此,开发具有高调度性能的动态车间物料调度算法是现阶段急需解决的问题。
[0003]近些年大多数求解生产车间的多目标动态柔性车间调度问题(MFJSP),均假设在一个静态的生产环境中进行,其中车间的设备与工件等加工信息是完全已知的,并且不考虑在实际生产过程中存在的多种扰动影响因素,因此输出的是一个固定的调度方案,在整个生产过程中不进行任何变动。然而,在实际生产过程中存在多种动态事件的干扰,如:新订单的插入,设备故障,工件加工工时变化等不确定且不可避免的扰动因素。这些随机发生的扰动致使在执行原静态调度方案时严重偏离预期结果,大幅降低了任务完成准时率及生产效率。动态多目标柔性作业车间调度问题(DMFJSP)以快速、准时、低延迟完成全部调度为目标,面向制造车间中复杂任务信息约束关系与实时不确定性事件扰动场景,研究动态最优调度解决方案对现代化制造业的生产、加工具有重要意义。
[0004]近些年来,越来越多的学者将研究方向转向基于人工智能神经网络的任务调度算法研究,发挥机器学习中深度强化学习算法的优势,提升物料调度系统的鲁棒性并高效的完成调度任务。为了在每个重调度时间点,选择最合适的调度规则,动态多目标柔性作业车间调度问题可以被看做是一个马尔科夫决策过程。智能体在面对工件、设备、工序与加工时间等多加工信息约束及不确定性扰动事件下,应综合利用当前生产状态信息,选取最优调度规则。然而,很少有研究考虑到真实生产环境中不确定性发生的动态扰动事件,也没有考虑到在解决扰动问题的同时实现生产调度所需的多种目标,从而有效的完成调度任务。

技术实现思路

[0005]针对上述问题,本专利技术提供一种基于Conv

Dueling与泛化表征的动态车间调度方法。
[0006]本专利技术的一种基于Conv

Dueling与泛化表征的动态车间调度方法,包括以下步骤:
[0007]步骤A:确定动态柔性作业车间调度问题。
[0008]本专利技术设计了包含多个动态事件及多个目标的动态多目标柔性调度车间问题。这
些扰动事件包括生产订单的插入、工序加工工时的变化和设备故障。三个目标包含了最小化的最大完工时间(makespan)、最大化工件完成准时率及最小化工件的延迟时间。
[0009]首先建立JSSP的逻辑调度公式,其中小写字母代表索引,大写字母代表集合。假设在柔性车间调度问题中有J={J1,J2,...,J
j
}个工件和M={M1,M2,...,M
m
}台设备,其中每个工件J
j
包含了一个或多个加工工序O={O1,O2,...,O
i
},如车铣刨磨焊等。每个工件加工必须按照固定的顺序执行,每个工序可被多个设备加工且在不同设备拥有不同的加工时长P
ji
。调度是将所有的工件合理的分配到各个设备上进行加工,以最小化最大加工时间、最大的工件完成准时率及最低的工件总延迟时间为目标。
[0010]工件的插入是指在车间生产调度的初始计划任务之外,由于齐套性不足或新任务需求等情况,需新增工件以完成生产任务。
[0011]设备故障是在实际生产过程中不可避免且随机发生的扰动事件。设备故障存在多种故障类型,并分别具有不同的维修时间。
[0012]加工工时变动是指生产过程中由于工人操作设备的熟练程度不同或设备问题等因素,无法按照规定加工时间完成加工任务,出现提前或延后完成加工的情况。
[0013]步骤B:确定动态柔性作业车间调度问题。
[0014](a)状态特征设计
[0015]为了充分利用深度学习从原始输入中提取特征,提出的状态空间是由包含工件及设备状态信息的多维矩阵构成。该矩阵加强了状态特征与动作空间的映射关系,不仅能够将设备执行动作所依赖的信息完整的表述,且有利于神经网络的快速训练及获得更好的收敛效果,从而使得设备更易做出最佳的动作决策。该多维状态矩阵通过将不同的调度特征信息作为图像的不同通道,每个通道具有设备序号的长度、工序顺序的宽度与工件数量的高度。这里考虑的调度特征包括工件、工序、设备、加工时间、截止时间、当前时间等信息。每个元素按整体最大处理时间进行标准化。如果操作已分配给设备则该设备处于加工状态,同时该值为工序在该设备上的剩余加工时间,该行其余值均为0。图像最右侧处理时间通道代表将加工时间、截止时间和当前时间进行权重计算后的数值,将多时间信息进行更完整的表述。
[0016](b)动作集设计
[0017]因此我们综合考虑加工时间、工件完成率、等待时间、截至时间、到达时间、空闲时间等信息因素设计9种较优的调度规则。
[0018](c)奖励函数设计
[0019]本专利技术研究的目标是对最小化最大完工时间、最小化延迟时间及最大化的完成准时率的综合考量,因此采用主线任务与支线任务结合的复合奖励方式,设计支线奖励以引导智能体向最优动作进行学习,主线奖励在完成一次训练时给予成功或失败的正或负反馈,解决了稀疏奖励不易收敛及密集奖励易造成局部最优的问题。其中主线奖励函数如公式(1)。
[0020][0021]其中R与R
b
是经多次实验后设定的奖励值,c
r
为工件的完成时间率,d
r
为工件的失败率,j
t
为当前加工时间步长,max
t
为加工时间步长阈值,r为目标完成率指标。
[0022]其中支线奖励如式(2)所示:
[0023]reward2=

{j
l
/m
s
)*μ
ꢀꢀꢀꢀ
(2)
[0024]其中j
l
为工件的未完成任务数,m
s
为总机器数量,μ为权重系数。
[0025]总奖励如式(3)所示:其中α为权重系数。
[0026]reward=reward1+α*reward2
ꢀꢀꢀꢀꢀꢀ
(3)
[0027]步骤C:Conv

Dueling调度算法优化求解大规模柔性作业车间调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Conv

Dueling与泛化表征的动态车间调度方法,其特征在于,包括以下步骤:步骤A:确定柔性作业车间调度;首先建立JSSP的逻辑调度公式,其中小写字母代表索引,大写字母代表集合;在柔性车间调度问题中有J={J1,J2,...,J
j
}个工件和M={M1,M2,...,M
m
}台设备,其中每个工件J
j
包含一个或多个加工工序O={O1,O2,...,O
i
};每个工件加工按照固定的顺序执行,每个工序被多个设备加工且在不同设备拥有不同的加工时长P
ji
;调度是将所有的工件合理的分配到各个设备上进行加工,以最小化最大加工时间、最大的工件完成准时率及最低的工件总延迟时间为目标;步骤B:确定动态柔性作业车间调度问题;(a)状态特征设计;状态空间是由包含工件及设备状态信息的多维矩阵构成,该多维状态矩阵通过将不同的调度特征信息作为图像的不同通道,每个通道具有设备序号的长度、工序顺序的宽度与工件数量的高度;考虑的调度特征信息包括工件、工序、设备、加工时间、截止时间、当前时间;每个时间信息按整体最大处理时间进行标准化;如果操作已分配给设备则该设备处于加工状态;图像最右侧处理时间通道代表将加工时间、截止时间和当前时间进行权重计算后的数值,将多时间信息进行完整表述;(b)动作集设计;综合考虑加工时间、工件完成率、等待时间、截至时间、到达时间、空闲时间信息因素挑选9种较优调度规则如表1所示;表1动作集表表1动作集表(c)奖励函数设计;采用主线任务与支线任务结合的复合奖励方式,设计支线奖励以引导智能体向最优动作进行学习,主线奖励在完成一次训练时给予成功或失败的正或负反馈;步骤C:Conv

Dueling调度算法优化求解大规模柔性作业车间调度问题;在训练阶段,
Conv

Dueling网络采用深度卷积神经网络架构。2.根据权利要求1所述的基于Conv

Dueling与泛化表征的动态车间调度方法,其特征在于,主线奖励函数如公式(1);其中R与R
b
是经多次实验后设定的奖励值,c
r
为工件的完成时间率,d
r
为工件的失败率,j
t
为当前加工时间步长,max
t
为加工时间步长阈值,r为目标完成率指标;支线奖励如式(2)所...

【专利技术属性】
技术研发人员:刘海滨夏铭浩李明飞王龙董浩
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1