一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统技术方案

技术编号：42668899 阅读：18 留言：0更新日期：2024-09-10 12:23

本发明专利技术属于车间调度相关技术领域，并公开了一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统。该方法包括下列步骤：A智能体模型离线训练过程；B智能体模型在线应用，采集待调度生产线的生产线状态，将生产线状态输入所示智能体模型中，输出所述任务池中各个任务分配的拓扑单元，拓扑单元按照该输出结果加工待加工产品，以此实现生产线的在线调度。通过本发明专利技术，对生产环境进行智能排产，应对七类扰动，使生产系统稳定高效的运转，具有更强的鲁棒性和响应能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于车间调度相关，更具体地，涉及一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统。

技术介绍

1、随着制造业规模的不断扩大和产业的不断发展，制造业生产方式正在面临重塑。伴随着物联网、深度学习等人工智能技术的发展，新的产业革命正推动新型制造模式——智能制造。作为智能制造的核心之一，智能优化决策驱动生产活动执行，对企业生产效率有着重要影响。生产调度就是在一定条件下把有限资源在合理的时间内分配给不同的任务，从而满足优化决策的日标，是制造企业生产计划和控制的关键核心技术。

2、在实际的精密装备装调生产线生产过程中，经常会出现动态扰动，通常由管理人员根据经验来指导其在线调度，效率低下且难以形成高效的排产方案。强化学习(reinforcement learning,rl)的目标是让智能体通过在环境中试错进而进行学习，从而根据环境实时的状态采取最合适的行动。在线调度问题是在时间上连续的序贯决策过程，其特点是在每次进行决策时只需考虑前一次决策的生产线环境状态，进行实时监测及决策。

3、随着计算机科学的发展，深度神经网络也被引入到强化学习领域用来处理连续状态空间和动作空间，即深度强化学习方法。通过引入神经网络，不仅有效处理了连续状态空间和动作空间的挑战，而且显著提高了模型的泛化能力和学习效果，增加了更灵活、智能的决策能力。面对带有多元扰动的精密装备装调生产线调度问题，传统的求解方法，难以取得满意的解。因此，亟需一种基于近端策略优化算法的考虑多元扰动的精密装备装调生产线在线调度方法能够针对多型号装备混

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本专利技术提供了一种基于近端策略优化算法的精密装备装调生产线在线调度方法及系统，解决带有扰动的生产线的调度问题。

2、为实现上述目的，按照本专利技术的一个方面，提供了一种基于近端策略优化算法的精密装备装调生产线在线调度方法，该方法包括下列步骤：

3、a智能体模型离线训练过程

4、s1对待调度生产线的生产线状态和时间进行初始化，在智能体中构建智能体模型；

5、s2将待加工产品待加工的首工序放入任务池中，判断待调度生产线当前是否存在扰动事件，若存在，根据扰动事件影响的待加工产品的待加工工序，调整和更新所述任务池中的任务，若不存在，判断当前任务池中是否有待分配的任务，如果有，进入步骤s3，如果无，进入步骤s4；

6、s3所述智能体模型根据当前的生产线状态，按照预设的资源联合分配原则将待分配的任务分配给相应的拓扑单元，各个拓扑单元加工完成当前任务后计算决策回报函数，根据该决策回报函数更新所述智能体模型；

7、s4更新所述生产线状态和时间，判断是否完成所有待加工产品的加工，如果有，返回步骤s2，如果无，结束；

8、b智能体模型在线应用

9、采集待调度生产线的生产线状态，将生产线状态输入所示智能体模型中，输出所述任务池中各个任务分配的拓扑单元，拓扑单元按照该输出结果加工待加工产品，以此实现生产线的在线调度。

10、进一步优选地，在步骤s1中，所述生产线状态包括：产品完成率、各拓扑单元的利用率、任务池中产品加工任务处理时间、任务池中产品剩余任务量、各拓扑单元缓冲区产品加工等待率、各拓扑单元缓冲区剩余产品量和各拓扑单元缓冲区产品加工时间。

11、进一步优选地，在步骤s2中，所述扰动事件包括新订单插入、拓扑单元发生故障或修复、工人发生请假或复工、工人离职或入职、物料延迟、任务暂停和拓扑单元增加。

12、进一步优选地，在步骤s3中，所述预设的资源联合分配原则为下列规则之一：

13、(1)最低负荷拓扑单元：分配利用率最小的拓扑单元

14、ms＝argminutik

15、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈m，m是可用拓扑单元的集合，utik是拓扑单元mk的利用率；

16、(2)最短处理时间拓扑单元：分配加工时间最短的拓扑单元

17、ms＝argmintijk

18、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈mij，mij是编号为i的产品的第j道工序的可选加工拓扑单元集合，tijk是编号为i的产品的第j道工序(待加工工序)在拓扑单元mk上的加工时间；

19、(3)最长处理时间拓扑单元：分配加工时间最长的拓扑单元

20、ms＝argmaxtijk

21、其中，ms是选择的拓扑单元，k是拓扑单元编号k∈mij，mij是编号为i的产品的第j道工序的可选加工拓扑单元集合，tijk是编号为i的产品的第j道工序(待加工工序)在拓扑单元mk上的加工时间；

22、(4)最短处理时间工人：分配加工时间最短的工人

23、ws＝argmintijm

24、其中，ws是选择的加工工人，m是加工工人编号m∈wij，wij是编号为i的产品的第j道工序的可选加工工人集合，tijm是编号为i的产品的第j道工序(待加工工序)需要工人wm辅助的加工时间；

25、(5)最低负荷工人：分配累计工作时间最少的工人

26、ws＝argminwtm

27、其中，ws是选择的加工工人，m是加工工人编号m∈wij，wij是编号为i的产品的第j道工序的可选加工工人集合，wtm是工人wm累计工作的时间。

28、进一步优选地，在步骤s3中，所述待分配的任务分配给相应的拓扑单元后，还需判断该拓扑单元是否可以进行批量处理，如果是，按照预设的选择规则选择拓扑单元当前需要加工的任务，如果否，拓扑单元按照任务分配的先后顺序对分配的任务进行处理。

29、进一步优选地，所述预设的选择规则为下列规则之一：选择阶段缓冲区内数量最多的产品类型进行加工、选择阶段缓冲区内数量最少的产品类型进行加工、选择阶段缓冲区内到达最早的产品类型进行加工、选择阶段缓冲区内到达最晚的产品类型进行加工、选择阶段缓冲区内加工时间最短的产品类型进行加工和选择阶段缓冲区内加工时间最长的产品类型进行加工。

30、进一步优选地，在步骤s3中，所述决策回报函数按照下列关系式进行：

31、r(t)＝makespan(t-1)-makespan(t)

32、其中，t是决策时刻，r(t)是决策时刻t决策后得到的奖励回报，makespan(t)是决策时刻t决策后，已安排的产品工序的加工完成时间，makespan(t-1)是上一决策时刻(t-1)后，已安排的产品工序的加工完成时间。

33、进一步优选地，在步骤s3中，所述更新所述智能体模型采用近端策略优化算法。

34、进一步优选地，所述智能体模型采用基于循环神经网络的模型。

35、按照本专利技术的另一个方面，提供了一种基于近端策略优化算法的精密装备装调生产线在线调度系统，该在线调度系统本文档来自技高网...

【技术保护点】

1.一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，该方法包括下列步骤：

2.如权利要求1所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S1中，所述生产线状态包括：产品完成率、各拓扑单元的利用率、任务池中产品加工任务处理时间、任务池中产品剩余任务量、各拓扑单元缓冲区产品加工等待率、各拓扑单元缓冲区剩余产品量和各拓扑单元缓冲区产品加工时间。

3.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S2中，所述扰动事件包括新订单插入、拓扑单元发生故障或修复、工人发生请假或复工、工人离职或入职、物料延迟、任务暂停和拓扑单元增加。

4.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S3中，所述预设的资源联合分配原则为下列规则之一：

5.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S3中，所述待分配的任务分配给相应的拓扑单元后，还需判断

6.如权利要求5所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，所述预设的选择规则为下列规则之一：选择阶段缓冲区内数量最多的产品类型进行加工、选择阶段缓冲区内数量最少的产品类型进行加工、选择阶段缓冲区内到达最早的产品类型进行加工、选择阶段缓冲区内到达最晚的产品类型进行加工、选择阶段缓冲区内加工时间最短的产品类型进行加工和选择阶段缓冲区内加工时间最长的产品类型进行加工。

7.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S3中，所述决策回报函数按照下列关系式进行：

8.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤S3中，所述更新所述智能体模型采用近端策略优化算法。

9.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，所述智能体模型采用基于循环神经网络的模型。

10.一种基于近端策略优化算法的精密装备装调生产线在线调度系统，其特征在于，该在线调度系统中设置有执行器，该执行器执行权利要求1-9任一项所述的基于近端策略优化算法的精密装备装调生产线在线调度方法。

...

【技术特征摘要】

1.一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，该方法包括下列步骤：

2.如权利要求1所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤s1中，所述生产线状态包括：产品完成率、各拓扑单元的利用率、任务池中产品加工任务处理时间、任务池中产品剩余任务量、各拓扑单元缓冲区产品加工等待率、各拓扑单元缓冲区剩余产品量和各拓扑单元缓冲区产品加工时间。

3.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤s2中，所述扰动事件包括新订单插入、拓扑单元发生故障或修复、工人发生请假或复工、工人离职或入职、物料延迟、任务暂停和拓扑单元增加。

4.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤s3中，所述预设的资源联合分配原则为下列规则之一：

5.如权利要求1或2所述的一种基于近端策略优化算法的精密装备装调生产线在线调度方法，其特征在于，在步骤s3中，所述待分配的任务分配给相应的拓扑单元后，还需判断该拓扑单元是否可以进行批量处理，如果是，按照预设的选择规则选择拓扑单元当前需要加工的任务，如果否，拓扑单元按照任务分配的先后顺序对...

【专利技术属性】
技术研发人员：李新宇，柳再为，卢治兵，王喆，秦琰，崔航浩，李育鑫，周金龙，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人