当前位置: 首页 > 专利查询>燕山大学专利>正文

基于深度强化学习网络的微服务-多代理工厂调度模型制造技术

技术编号:35859098 阅读:25 留言:0更新日期:2022-12-07 10:47
本发明专利技术公开了基于深度强化学习网络的微服务

【技术实现步骤摘要】
基于深度强化学习网络的微服务

多代理工厂调度模型


[0001]本专利技术涉及智能制造
,尤其是基于深度强化学习网络的微服务

多代理工厂调度模型。

技术介绍

[0002]在工厂生产调度管控方面,国内外学者提出多代理系统、整子制造系统等模型,可实现分散控制。现有研究表明,传统的多代理系统对多目标算法的动态支持不足,调度策略的制定缺乏全局性,而整子制造系统虽然具备快速适应环境变化的能力,但是离实际应用还有一定的距离。基于微服务架构对各代理功能进行细粒度服务划分,能够促进制造过程去中心化,去总线化。
[0003]目前应用比较广泛的调度方法是启发式规则方法,其关键在于为待加工工件分配优先级。但是启发式规则不具有泛化性,不同的启发式规则是适用于特定的加工场景。而且,启发式规则具有短视性,即调度结果会随着决策步数的增加远远差于最优解。深度强化学习模型(DRL)在智能排产动态调度问题上的研究已经有了较大进展,深度强化学习被广泛应用于解决各种动态调度问题。这类模型比传统的优先调度规则启发式更灵活,但是上述处理方法大多还处于理论研究的阶段,还不能面向工厂真实需求的复杂约束建模,对于工厂出现的某些随机问题,无法提供满足工厂真实需求的智能排产动态调度方法。
[0004]因此,有必要研发一种基于多智能体的Actor

Critic模型,使得工件智能体之间相互影响,能够为求解智能工厂调度问题提供较优调度方案。

技术实现思路

[0005]本专利技术的目的是提供一种基于深度强化学习网络的微服务

多代理工厂调度模型,以实现在不超过设备负载的基础上,减少作业整体处理时间。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种基于深度强化学习网络的微服务

多代理工厂调度模型,所述调度模型是基于多个样本生产任务的静态特征和动态特征、代理层动态特征以及Critic网络,对Actor网络进行训练后得到的模型;
[0008]所述Critic网络用于基于各样本生产任务对应的完工时长,评价Actor网络的输出结果,针对每个样本生产任务,该样本生产任务对应的完工时长为该样本生产任务在第一个生产阶段的开始执行时刻与该样本生产任务在最后一个生产阶段的完成执行时刻之间的时间差;
[0009]所述代理层为面向生产任务所利用制造资源的多代理模型;所述代理层存储各种代理信息,并在微服务层的控制策略下完成生产任务;
[0010]所述微服务层为根据多智能体Actor

Critic的深度强化学习框架构建本地知识库和算法库中微服务的匹配规则,接受业务管理下发的定制化服务,并将其确立为包含分布式处理的微服务模型、属性模型的生产任务,并将生产任务传递给业务管理,并接受业务
管理下发的生产任务控制策略;
[0011]根据车间调度问题的目标函数确定出车间仿真环境,获取待调度的各生产任务的静态特征和动态特征以及代理层动态特征;生产任务的静态特征包括任务量和完成所需时长;生产任务的动态特征包括接收时刻;代理层动态特征包括每个生产阶段的设备能够执行的剩余任务量;
[0012]将生产任务的静态特征和生产任务动态特征以及代理层动态特征输入调度模型,获得所述调度模型输出的各生产任务在每个生产阶段的作业执行顺序或者批次执行顺序;每个批次包括多个生产任务。
[0013]本专利技术技术方案的进一步改进在于:所述代理层包括生产任务所使用物料的物料代理、生产线上所利用操作机器的机器代理以及完成生产任务中物流活动的运输代理。
[0014]本专利技术技术方案的进一步改进在于:所述物料代理包括原材料、粗加工产品;物料代理信息包括物料的种类、数量、存储仓库位置与剩余容量。
[0015]本专利技术技术方案的进一步改进在于:所述机器代理包括生产线上所有的操作机器;机器代理信息包括机器的种类、数量、功能、工作状态和当前已排产订单数量。
[0016]本专利技术技术方案的进一步改进在于:所述运输代理包括自动导引车和传送带;运输代理信息包括代理的状态、位置、运输速率和已排产订单数量。
[0017]本专利技术技术方案的进一步改进在于:所述微服务模型是完成生产任务中相应工序或功能的一个基本单元微服务;所述属性模型是生产任务和定制化服务要求对生产过程的约束条件;生产任务能够通过多个微服务在时间与空间上的编排实现,同一个微服务能够由代理层中不同代理协作的代理路径完成;本地知识库用于代理层与微服务层历史数据以及生产任务控制策略的存储,以通过代理层和微服务层的状态更新完成自学习。
[0018]本专利技术技术方案的进一步改进在于:所述算法库采用多智能体Actor

Critic的深度强化学习框架,其基于生产任务的各种属性特征,完成微服务与代理层时空上的匹配关系,完成生产任务的制定。
[0019]本专利技术技术方案的进一步改进在于:所述调度模型通过以下步骤训练获得:
[0020]步骤1,将多个样本生产任务的静态特征和动态特征以及代理层动态特征输入Actor网络,得到多个样本生产任务在每个生产阶段的作业执行顺序或者批次执行顺序;
[0021]步骤2,基于多个样本生产任务的动态特征,获得多个样本生产任务对应的完工时长中最长的完工时长,并基于所述最长的完工时长计算累计回报;
[0022]步骤3,将多个样本生产任务的静态特征和动态特征、所述累计回报以及代理层动态特征输入Critic网络,得到回报差异值;
[0023]步骤4,利用所述回报差异值,调整所述Actor网络和所述Critic网络的网络参数;
[0024]步骤5,若当前训练周期不为最后一个训练周期,则返回执行所述步骤1;其中,步骤1至步骤4为一个训练周期;
[0025]步骤6,若当前训练周期为最后一个训练周期,则将当前训练得到的Actor网络作为所述调度模型。
[0026]由于采用了上述技术方案,本专利技术取得的技术进步是:
[0027]1、本专利技术通过基于数据驱动的科学决策,决策效率高,实现了待加工工件的优先级分配,同时适用于各种加工场景,兼容性强。
[0028]2、本专利技术基于多智能体Actor

Critic的深度强化学习框架,可以在不超过生产设备处理能力的基础上,减少作业整体处理时间。
附图说明
[0029]图1为本专利技术实施例提供的一种调度模型确定调度方案的流程示意图。
具体实施方式
[0030]本申请实施例通过提供一种基于深度强化学习网络的微服务

多代理工厂调度模型,解决了现有作业车间的动态调度方法效率低、兼容性差的技术问题。大致思路:将生产任务确立为分布式处理的微服务模型和属性模型;针对生产资源的功能区别划分多代理模型;获取各生产任务的静态特征和动态特征以及代理层动态特征,将待调度的各生产任务的静态特征和动态特征以及代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习网络的微服务

多代理工厂调度模型,其特征在于:所述调度模型是基于多个样本生产任务的静态特征和动态特征、代理层动态特征以及Critic网络,对Actor网络进行训练后得到的模型;所述Critic网络用于基于各样本生产任务对应的完工时长,评价Actor网络的输出结果,针对每个样本生产任务,该样本生产任务对应的完工时长为该样本生产任务在第一个生产阶段的开始执行时刻与该样本生产任务在最后一个生产阶段的完成执行时刻之间的时间差;所述代理层为面向生产任务所利用制造资源的多代理模型;所述代理层存储各种代理信息,并在微服务层的控制策略下完成生产任务;所述微服务层为根据多智能体Actor

Critic的深度强化学习框架构建本地知识库和算法库中微服务的匹配规则,接受业务管理下发的定制化服务,并将其确立为包含分布式处理的微服务模型、属性模型的生产任务,并将生产任务传递给业务管理,并接受业务管理下发的生产任务控制策略;根据车间调度问题的目标函数确定出车间仿真环境,获取待调度的各生产任务的静态特征和动态特征以及代理层动态特征;生产任务的静态特征包括任务量和完成所需时长;生产任务的动态特征包括接收时刻;代理层动态特征包括每个生产阶段的设备能够执行的剩余任务量;将生产任务的静态特征和生产任务动态特征以及代理层动态特征输入调度模型,获得所述调度模型输出的各生产任务在每个生产阶段的作业执行顺序或者批次执行顺序;每个批次包括多个生产任务。2.根据权利要求1所述的一种基于深度强化学习网络的微服务

多代理工厂调度模型,其特征在于:所述代理层包括生产任务所使用物料的物料代理、生产线上所利用操作机器的机器代理以及完成生产任务中物流活动的运输代理。3.根据权利要求2所述的一种基于深度强化学习网络的微服务

多代理工厂调度模型,其特征在于:所述物料代理包括原材料、粗加工产品;物料代理信息包括物料的种类、数量、存储仓库位置与剩余容量。4.根据权利要求2所述的一种基于深度强化学习网络的微服务

多代理工厂调度模型,其特征在于:所述机器代理包括生产线上所有的操作机...

【专利技术属性】
技术研发人员:马锴刘鹏杨婕杨博郭士亮袁亚洲关新平
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1