一种面向离散制造系统的智能交互式决策方法技术方案

技术编号:36894159 阅读:14 留言:0更新日期:2023-03-15 22:16
本发明专利技术公开了一种面向离散制造系统的智能交互式决策方法,包括如下步骤:步骤1、针对实际应用场景,建立离散制造生产调度优化模型与策略;步骤2、基于深度强化学习算法,利用已有生产数据训练调度策略,将训练过程中具有高奖励的状态存入记忆体;步骤3、利用记忆体中的先验知识更新状态;步骤4、将更新后的状态输入深度强化学习网络,得到对应的奖励,并根据其奖励更新记忆体;步骤5、反复执行步骤4,直至模型参数收敛,保存模型,投入实际生产场景。本发明专利技术利用记忆体机制降低模型训练的计算量,提高模型训练的速度,能更快的迭代出最优解。能更快的迭代出最优解。能更快的迭代出最优解。

【技术实现步骤摘要】
一种面向离散制造系统的智能交互式决策方法


[0001]本专利技术涉及计算机数据科学
,尤其是一种面向离散制造系统的智能交互式决策方法。

技术介绍

[0002]随着国民经济发展,我国离散制造产业进入新的工业化道路。如今多品种、小批量和短交期模式下的离散制造业,其生产流程长而复杂,生产方式灵活多变,生产过程易受动态事件干扰,这对制造企业的智能决策和快速响应的能力提出了挑战。因此,如何通过智能决策实现生产资源的快速调配,从而实现生产能力提升是离散制造领域的研究热点,其实现的方法具有十分重要的现实意义和应用价值。
[0003]现有的智能决策方法多基于静态生产环境的假设,即制造车间的信息完全已知且不发生变化。然而,现有离散制造生产过程中存在操作人员流动、订单插单返单、设备故障等动态因素,会对已有生产调度方案产生扰动,使生产状态陷入混乱,降低生产效益。因此一种能对生产过程进行动态调度的智能决策方法具有十分重要的实际意义。
[0004]目前,基于遗传算法的生产调度决策方法得到广泛运用。该算法是一种模拟达尔文进化过程的元启发算法,能适用于多种生产问题的求解,并得到质量较高的解。然而,该类算法计算量巨大,会随问题规模指数级增长,模型训练速度过慢,此外,只适用于中小型规模的动态调度问题,无法求解大规模的动态调度问题,实际运用价值较低。

技术实现思路

[0005]本专利技术所要解决的技术问题在于,提供一种面向离散制造系统的智能交互式决策方法,利用记忆体机制降低模型训练的计算量,提高模型训练的速度,能更快的迭代出最优解。
[0006]为解决上述技术问题,本专利技术提供一种面向离散制造系统的智能交互式决策方法,包括如下步骤:
[0007]步骤1、针对实际应用场景,建立离散制造生产调度优化模型与策略;
[0008]步骤2、基于深度强化学习算法,利用已有生产数据训练调度策略,将训练过程中具有高奖励的状态存入记忆体;
[0009]步骤3、利用记忆体中的先验知识更新状态;
[0010]步骤4、将更新后的状态输入深度强化学习网络,得到对应的奖励,并根据其奖励更新记忆体;
[0011]步骤5、反复执行步骤4,直至模型参数收敛,保存模型,投入实际生产场景。
[0012]优选的,步骤1中,针对实际应用场景,建立离散制造生产调度优化模型与策略具体为:根据实际调度目标,将离散制造生产问题转换为顺序决策问题,根据目标,定义状态、动作、奖励、探索和利用策略;确立一个生产周期内产出最大产品价值为目标,奖励为一个生产周期内产品的总价值;状态包括车间需要生产的产品总类、每类产品的生产批次和所
处加工阶段、每件产品生产的加工时间和加工顺序等生产制造信息,为产品分配的加工设备、设备负载率、正常运行或故障的设备等机器设备状态信息,车间温度和湿度等环境状态;动作为对产品加工顺序、分配到的加工设备等生产调度策略进行调整;然后根据实际应用场景,选择适当的深度强化学习算法框架,确立离散制造生产调度优化模型。
[0013]优选的,步骤2中,基于深度强化学习算法,利用已有生产数据训练调度策略,将训练过程中具有高奖励的状态存入记忆体具体为:从投入生产的离散制造车间采集一定生产周期的生产数据,作为预训练的样本,选择深度强化学习算法,利用采集的生产数据训练一个离散制造生产调度优化模型R,该模型输入当前车间采样的生产数据,输出对车间生产线进行调度优化的决策方案;
[0014]定义一个记忆体D,其容量为M,用来存放状态

奖励对(s,r),车间状态s为获得对应奖励r所采取的行动策略公式为:
[0015][0016]上式中,Q(s
t
,a
t
)为动作价值函数,其中s
t
表示当前制造车间的状态,a
t
表示采取当前时刻生产车间要采用的行动调度,该行动策略以1

ε的概率为当前车间状态s
t
随机选择一个动作或者以ε的概率根据动作价值函数Q评估出当前状态的各动作q值,并选择当前最优动作a,对当前车间状态s
t
执行最优调度策略a,得到奖励r
t
和下一状态s
t+1
,并更新记忆体。
[0017]优选的,记忆体的更新过程具体为:
[0018](a)如果记忆体D容量未满且不存在与s
t
相似的s
i
(i=1,2,3,

,M),则录入状态

奖励对(s
t
,r
t
),其相似度计算公式如下:
[0019][0020]上式中,Sim
it
表示s
t
与s
i
的相似度,如果Sim
it
>δ,则认为s
i
与s
t
相似,其中δ为判断相似度的阈值;
[0021](b)如果记忆体D中存在与s
t
相似的s
i
,则选择奖励更高的状态进行替换,其更新公式如下:
[0022][0023]上式中,r
i
是状态s
i
对应的奖励,r
t
是状态s
t
对应的奖励,“~”表示相似;
[0024]最终完成记忆体的初始化,记忆体中存储了M个具有最高奖励的车间状态,表示根据已采集的实际生产数据,制造车间处于这M种状态下具有较高的奖励,更接近生产调度的目标。
[0025]优选的,步骤3中,利用记忆体中的先验知识更新状态具体为:从投入生产的离散制造车间中采集与步骤1不同生产周期的生产数据,作为训练更新的样本,通过相似度计算获得记忆体中与s
t
最相似的高奖励状态s
m
,将其与s
t
进行加权和,获得新的车间状态并将作为神经网络R的输入;具体公式为:
[0026][0027]上式中,为更新后的新状态,s
t
是当前输入的车间状态,s
m
是来自记忆体中与s
t
最相似的高奖励状态,α、β是权重参数,其中s
m
的选取公式为:
[0028][0029]上式中,s
i
为已录入记忆体D中的车间状态。
[0030]上述过程利用记忆体中已有的高奖励状态,将其作为先验知识生成新的状态,该车间状态更有可能具有高奖励值,即更好的生产结果(更短的生产时间、更低的生产成本等),提高模型迭代收敛的速度,减少离散制造生产调度优化模型的训练时间。
[0031]优选的,步骤4中,将更新后的状态输入深度强化学习网络,得到对应的奖励,并根据其奖励更新记忆体具体为:将更新后的车间状态输入离散制造生产调度优化模型R,进一步优化网络R所输出的最优策略,并根据其状态对应的奖励更新记忆体,获得奖励的公式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向离散制造系统的智能交互式决策方法,其特征在于,包括如下步骤:步骤1、针对实际应用场景,建立离散制造生产调度优化模型与策略;步骤2、基于深度强化学习算法,利用已有生产数据训练调度策略,将训练过程中具有高奖励的状态存入记忆体;步骤3、利用记忆体中的先验知识更新状态;步骤4、将更新后的状态输入深度强化学习网络,得到对应的奖励,并根据其奖励更新记忆体;步骤5、反复执行步骤4,直至模型参数收敛,保存模型,投入实际生产场景。2.如权利要求1所述的面向离散制造系统的智能交互式决策方法,其特征在于,步骤1中,针对实际应用场景,建立离散制造生产调度优化模型与策略具体为:根据实际调度目标,将离散制造生产问题转换为顺序决策问题,根据目标,定义状态、动作、奖励、探索和利用策略,确立一个生产周期内产出最大产品价值为目标,奖励为一个生产周期内产品的总价值;状态包括车间需要生产的产品总类、每类产品的生产批次和所处加工阶段、每件产品生产的加工时间和加工顺序生产制造信息,为产品分配的加工设备、设备负载率、正常运行或故障的设备等机器设备状态信息,车间温度和湿度等环境状态;动作为对产品加工顺序、分配到的加工设备等生产调度策略进行调整;然后根据实际应用场景,选择深度强化学习算法框架,确立离散制造生产调度优化模型。3.如权利要求1所述的面向离散制造系统的智能交互式决策方法,其特征在于,步骤2中,基于深度强化学习算法,利用已有生产数据训练调度策略,将训练过程中具有高奖励的状态存入记忆体具体为:从投入生产的离散制造车间采集一定生产周期的生产数据,作为预训练的样本,选择深度强化学习算法,利用采集的生产数据训练一个离散制造生产调度优化模型R,该模型输入当前车间采样的生产数据,输出对车间生产线进行调度优化的决策方案;定义一个记忆体D,其容量为M,用来存放状态

奖励对(s,r),车间状态s为获得对应奖励r所采取的行动策略公式为:上式中,Q(s
t
,a
t
)为动作价值函数,其中s
t
表示当前制造车间的状态,a
t
表示采取当前时刻生产车间要采用的行动调度,该行动策略以1

ε的概率为当前车间状态s
t
随机选择一个动作或者以ε的概率根据动作价值函数Q评估出当前状态的各动作q值,并选择当前最优动作a,对当前车间状态s
t
执行最优调度策略a,得到奖励r
t
和下一状态s
t+1
,并更新记忆体。4.如权利要求3所述的面向离散制造系统的智能交互式决策方法,其特征在于,记忆体的更新过程具体为:(a)如果记忆体D容量未满且不存在与s
t
相似的s
i
(i=1,2,3,

,M),则录入状态

奖励对(s
t
,r
t
),其相似度计算公式如下:上式中,Sim
it
表示s
t
与s
i
的相似度,如果Sim
it
>δ,则认为s
i
与s...

【专利技术属性】
技术研发人员:杨海根林东煌王聪曾凡玉戴尔晗刘佶鑫葛艳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1