基于深度强化学习的带返工汽车涂装重排序方法技术

技术编号:29332175 阅读:112 留言:0更新日期:2021-07-20 17:49
本发明专利技术属于资源、工作流、人员或项目管理领域,一种基于深度强化学习的带返工汽车涂装重排序方法,能够实时响应涂装车间中出现的返工情况,动态调整后续喷涂计划。所述重排序调度算法包括涂装交互环境构建模块、Actor‑Critic算法实现模块、离线训练模块、在线排序模块。所述涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;所述算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构,该模块为本发明专利技术核心模块;所述离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;所述在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序。

【技术实现步骤摘要】
基于深度强化学习的带返工汽车涂装重排序方法
本专利技术涉及一种基于深度强化学习的带返工汽车涂装重排序方法,属于资源、工作流、人员或项目管理领域。
技术介绍
在现代汽车制造系统中,汽车从车身车间加工后以总装需求序列顺序进入WBS(WhiteBodyStorage,白车身缓冲区)缓冲区中等待进入喷涂车间加工,喷涂车间为了降低颜色切换的运营成本,需要对当前订单序列进行重排序,同时为了降低下游总装车间的生产延误,保证订单能够遵守计划装配顺序,按时交付,在重排序时还需要降低与总装需求序列的偏差。然而在涂装过程中还存在因严重质量问题导致的返工修补情况,需要实时响应涂装车间的环境变化,动态调整涂装计划,以适应返工对当前重排序的影响和二次喷涂对当前喷涂序列的扰动。在我国,随着汽车制造业的发展和企业对降低生产成本提高行业竞争力的迫切需求,出现了用于解决汽车涂装车间订单序列重排序问题的方法。如中华人民共和国知识产权局专利号为CN201710555333.4的“一种解决WBS排序问题的调度方法”公布了一种将缓冲区抽象为FIFO队列的,基于指定规则和队列优先级决定汽车入道和出道的重排序调度方法,对于返工订单,直接根据队列优先级直接插入队列,该方法旨在解决涂装车间的不当排序导致的频繁颜色切换造成的物料浪费和高成本问题,为汽车涂装车间的重排序调度提供了一种方法。随着计算机技术,人工智能的发展,企业也开始使用先进的优化算法来解决生产调度问题。如中华人民共和国知识产权局专利号为“CN201910593608.2”的“用于汽车涂装车间的按色分批方法”公布了一种基于蚁群优化的启发式算法和滚动求解方法的虚拟重排序方法,解决不同规模订单的颜色分批问题,有效的降低了汽车涂装车间的颜色切换次数;中华人民共和国知识产权局专利号为“CN202010496543.2”的“基于改进遗传算法的WBS缓冲区车辆排序调度方法”,公布了一种采用改进遗传算法优化排序调度模型参数的方法,使模型能够取得最小值,降低生产成本;中华人民共和国知识产权局专利号为“CN202010035705.2”的“基于遗传算法的汽车重排序方法”,公布了一种采用遗传算法的虚拟重排序方法进行漆后车身序列恢复,降低与下游总装需求序列的偏差。现在已公开的关于汽车涂装车间的重排序方法针对涂装车间的生产需求提出了一些解决思路,但仍然存在以下不足:第一,在进行汽车涂装重排序调度时仅考虑降低涂装车间的颜色切换次数或是仅解决下游缓冲区的序列恢复问题,没有考虑上游涂装车间和下游总装车间的需求联动性,在对WBS缓冲区中订单集合制定喷涂计划时,没有同时考虑降低涂装序列的颜色切换次数和与总装需求序列的偏差;第二,当前采用的重排序调度方法多是基于指定规则和传统的启发式算法,对涂装环境和序列的动态变化未能很好的抽象和刻画,灵活性较差;第三,当前公布的成果中未能对涂装车间中存在的严重质量缺陷导致的返工和返工后车身二次喷涂的情况提出解决方案,返工品对当前的排序效果会造成影响,直接增加总装需求序列偏差,导致生产延迟,需要针对发生的返工情况和二次喷涂需要对涂装计划进行动态调整。基于实际涂装需求,本专利技术提出了一种更加完备有效的考虑动态返工情况的重排序调度方法,该方法基于Actor-Critic算法,考虑上游涂装车间和下游总装车间不同的序列需求,在避免涂装车间频繁颜色切换的同时,降低与下游总装需求序列的非一致性,减少涂装颜料浪费,生产效率降低,延迟交付的情况。除此之外该方法在重排序时考虑了涂装车间的实时返工情况,针对返工车身的二次喷涂能够动态调整后续喷涂计划,降低返工导致的序列扰动对排序效果的影响。
技术实现思路
本专利技术提供了一种带返工汽车涂装重排序调度算法,该算法基于深度强化学习Actor-Critic算法,在进行重排序调度时能够有效降低涂装车间的颜色切换次数和与总装需求序列的偏差,减少物料浪费和生产延迟,保证整车的按时交付。同时能够根据涂装车间的实时返工情况动态调整后续喷涂计划,降低返工对排序效果的影响,保证生产正常进行。本专利技术采取的技术方案如下:一种基于深度强化学习的带返工汽车涂装重排序方法,能够实时响应涂装车间中出现的返工情况,动态调整后续喷涂计划。所述重排序调度算法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块、在线排序模块。所述涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;所述算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构,该模块为本专利技术核心模块;所述离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;所述在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序。在使用本算法进行重排序调度之前需要进行以下准备工作:1、按照指定格式以数据表的形式存储订单数据。订单数据中需要包含一次排序所需的订单集合,每个订单包含车身颜色和车身类型两个属性;2、根据实际需求确定训练参数,并以数据表的形式存储参数。包括训练次数,返工时间范围,返工率,子目标权重,缓冲区容量,最大颜色批量等。本专利技术所述重排序调度算法包括如下步骤:步骤一:涂装交互环境构建读取数据文件,初始化涂装交互环境,参数,记录订单数据的各项信息。步骤1.1:数据导入。读取订单序列文件,取出订单数据,将订单的各属性,如车身颜色(color)、车身类型(model)按照对应关系存入表示订单的列表中。列表中的每一项元素表示一个订单,每个订单又为包含车身颜色和车身类型的二元列表,遍历整个订单列表可以获取该订单的全部数据,包括车身颜色集合,车身类型集合,订单列表中的各订单顺序与原数据文件中的订单顺序一致。记录所需订单信息:1、根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码,使用字典记录各属性与整数的对应关系;2、计算集合列表中各订单类型的数目,一个订单类型为一车身颜色和类型的组合,使用字典记录各订单类型与其数目的对应关系;3、将各类型订单在序列中的位置集合以列表存储,并用字典记录各类型订单与其位置集合的对应关系。步骤1.2:参数设置。读取参数设置文件,取出参数,将参数存入参数列表中,保证算法在整个过程中均可以调用参数。根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值,包括训练次数,返工时间范围,返工率,子目标权重,缓冲区容量,最大颜色批量等。步骤1.3:初始化算法涂装交互环境,通过初始化全局环境变量来构建涂装交互环境,用以深度强化学习算法的交互和训练。涂装交互环境的全局变量包含:(1)Wbs,表示当前WBS中未进入喷涂车间的订单集合,记录当前各订单类型的剩余数量;(2)Painted,表示当前涂装序列,记录进入涂装车间的订单类型序列,其中也包括二次喷涂的车身;(3)Qualfied,表示进入PBS(PaintBodyStorage,漆车身缓冲区)的漆后合格序列;(4)Reworking表示返工区的车身集合,返工结束后对应订单离本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的带返工汽车涂装重排序方法,/n在使用本算法进行重排序调度之前需要进行以下准备工作:/n(1)按照指定格式以数据表的形式存储订单数据;订单数据包含一次排序所需的订单集合,每个订单包含车身颜色和车身类型两个属性;/n(2)根据实际需求确定训练参数,并以数据表的形式存储参数,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;/n其特征在于,该带返工汽车涂装重排序方法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块和在线排序模块;涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;Actor-Critic算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构;离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序;/n带返工汽车涂装重排序方法包括如下步骤:/n步骤一:涂装交互环境构建模块/n读取数据文件,初始化涂装交互环境,参数,记录订单数据的各项信息;/n步骤1.1:数据导入;读取订单序列文件,取出订单数据,将订单的属性车身颜色和车身类型按照对应关系存入表示订单的列表中;列表中的每一项元素表示一个订单,每个订单为包含车身颜色和车身类型的二元列表,遍历整个订单列表获取该订单的全部数据,包括车身颜色集合和车身类型集合,订单列表中的各订单顺序与原数据文件中的订单顺序一致;记录所需订单信息:/n(1.1.1)根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码,使用字典记录各属性与整数的对应关系;/n(1.1.2)计算集合列表中各订单类型的数目,一个订单类型为一车身颜色和类型的组合,使用字典记录各订单类型与其数目的对应关系;/n(1.1.3)将各类型订单在序列中的位置集合以列表存储,并用字典记录各类型订单与其位置集合的对应关系;/n步骤1.2:参数设置;读取参数设置文件,取出参数,将参数存入参数列表中,保证算法在整个过程中均可调用参数;根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;/n步骤1.3:初始化算法涂装交互环境,通过初始化全局环境变量来构建涂装交互环境,用以深度强化学习算法的交互和训练;涂装交互环境的全局变量包含:(1)Wbs,表示当前WBS中未进入喷涂车间的订单集合,记录当前各订单类型的剩余数量;(2)Painted,表示当前涂装序列,记录进入涂装车间的订单类型序列,其中也包括二次喷涂的车身;(3)Qualified,表示进入PBS的漆后合格序列;(4)Reworking,表示返工区的车身集合,返工结束后对应订单离开该序列;(5)Reworked,表示已经结束返工的车身集合,记录当前各订单类型中存在的已返工订单数目;(6)Location,表示未进入漆后合格序列Qualified中的各类型订单在总装需求序列中的位置集合;(7)T,记录当前时刻,初始为0;(8)Buffer,PBS中当前存在的漆后车身集合;/n步骤二:Actor-Critic算法实现模块/n构建数学模型,为深度强化学习算法定义状态空间、动作空间、奖励函数和设计算法结构;/n步骤2.1:数学模型建立;根据订单数据和参数建立考虑返工的汽车涂装重排序调度问题的数学模型,确定目标函数和约束条件;其中,Ψ为子目标Φ颜色切换次数子目标和X总装需求偏差子目标的加权之和,ω...

【技术特征摘要】
1.一种基于深度强化学习的带返工汽车涂装重排序方法,
在使用本算法进行重排序调度之前需要进行以下准备工作:
(1)按照指定格式以数据表的形式存储订单数据;订单数据包含一次排序所需的订单集合,每个订单包含车身颜色和车身类型两个属性;
(2)根据实际需求确定训练参数,并以数据表的形式存储参数,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;
其特征在于,该带返工汽车涂装重排序方法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块和在线排序模块;涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;Actor-Critic算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构;离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序;
带返工汽车涂装重排序方法包括如下步骤:
步骤一:涂装交互环境构建模块
读取数据文件,初始化涂装交互环境,参数,记录订单数据的各项信息;
步骤1.1:数据导入;读取订单序列文件,取出订单数据,将订单的属性车身颜色和车身类型按照对应关系存入表示订单的列表中;列表中的每一项元素表示一个订单,每个订单为包含车身颜色和车身类型的二元列表,遍历整个订单列表获取该订单的全部数据,包括车身颜色集合和车身类型集合,订单列表中的各订单顺序与原数据文件中的订单顺序一致;记录所需订单信息:
(1.1.1)根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码,使用字典记录各属性与整数的对应关系;
(1.1.2)计算集合列表中各订单类型的数目,一个订单类型为一车身颜色和类型的组合,使用字典记录各订单类型与其数目的对应关系;
(1.1.3)将各类型订单在序列中的位置集合以列表存储,并用字典记录各类型订单与其位置集合的对应关系;
步骤1.2:参数设置;读取参数设置文件,取出参数,将参数存入参数列表中,保证算法在整个过程中均可调用参数;根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;
步骤1.3:初始化算法涂装交互环境,通过初始化全局环境变量来构建涂装交互环境,用以深度强化学习算法的交互和训练;涂装交互环境的全局变量包含:(1)Wbs,表示当前WBS中未进入喷涂车间的订单集合,记录当前各订单类型的剩余数量;(2)Painted,表示当前涂装序列,记录进入涂装车间的订单类型序列,其中也包括二次喷涂的车身;(3)Qualified,表示进入PBS的漆后合格序列;(4)Reworking,表示返工区的车身集合,返工结束后对应订单离开该序列;(5)Reworked,表示已经结束返工的车身集合,记录当前各订单类型中存在的已返工订单数目;(6)Location,表示未进入漆后合格序列Qualified中的各类型订单在总装需求序列中的位置集合;(7)T,记录当前时刻,初始为0;(8)Buffer,PBS中当前存在的漆后车身集合;
步骤二:Actor-Critic算法实现模块
构建数学模型,为深度强化学习算法定义状态空间、动作空间、奖励函数和设计算法结构;
步骤2.1:数学模型建立;根据订单数据和参数建立考虑返工的汽车涂装重排序调度问题的数学模型,确定目标函数和约束条件;其中,Ψ为子目标Φ颜色切换次数子目标和X总装需求偏差子目标的加权之和,ω1和ω2分别为两个子目标的权重,总目标为最小化子目标加权之和;根据步骤一中的订单数据导入,共有N个订单,c个车身颜色,m个车身类型;为0-1决策变量,若第n个订单颜色为i则取值1,否则取值0;为0-1决策变量,若第n个订单车身类型为j则取值1,否则取值0;Ni,j为车身颜色为i,车身类型为j的订单数量;k为返工订单的返工序号,为0-1变量,在t时刻,若订单n发生返工,则取值1,否则取值0,该订单为返工序列中的第k个返工订单,Nr为返工订单数量;为0-1变量,第k个返工订单n二次喷涂颜色为i则取值1,否则取值0;为0-1变量,第k个返工订单n车身类型为j则取值1,否则取值0;BS(t)、PS(t)、CS(t)、RS(t)和QS(t)表示t时刻WBS缓冲区、喷涂区、质检区、返工区和PBS缓冲区中的订单集合,B为初始订单集合;b为当前喷涂区颜色批次,Bp为喷涂区颜色批量上限;l为当前漆后缓冲区中车身数量,Ls为漆后缓冲区容量;
该数学模型的目标函数为最小化颜色切换次数和总装需求偏差两子目标的加权目标之和,约束为:(1)重排序后每个订单只能喷涂一种颜色;(2)重排序后每个订单只属于一种车型;(3)排序前后订单总数不变;(4)重排序后具有相同颜色和车身类型的订单数目不变;(5)订单在整个过程中只能进行一次返工;(6)车身经过返工后进行二次喷涂时的颜色和车身类型与第一次喷涂时相同;(7)整个重排序过程中的任意时刻,WBS,喷涂区,质检区,返工区,PBS中的订单集合之和为初始订单集合,全部订单集合没有发生变化;(8)每种颜色连续喷涂的次数不超过颜色喷涂批量的上限;(9)缓冲区中的车身数量不超过缓冲区最大容量;(10)各子目标的权重在[0,1]之间,且和为1;
minΨ=ω1Φ+ω2X



























0≤b≤Bp
l≤Ls
0≤ω1≤1,0≤ω2≤1,ω1+ω2=1
步骤2.2:定义状态空间;状态空间为一个三元组,S=<f1,f2,f3>;各元素如下:
(2.2.1)f1:标识当前正在喷涂的颜色,采用onehot编码,如果当前正在喷涂的颜色为i,那么否则且满足
(2.2.2)f2:标识当前各订单类型相对于总装需求序列的偏差程度,f2=(d1,d2,…,dc×m);若当前订单进入漆后合格序列中的位置为pq,为订单类型为u的订单在总装需求序列中的最近位置,则订单类型u与总装需求序列的偏差du表示订单类型u的偏差比例,|du|越大,表示偏差越大,du>0,说明订单会发生延误,du≤0说明订单未发生延误;当订单集合中没有订单类型为u的订单时,du=0;
(2.2.3)f3:当前喷涂的颜色批量比例;其中B为当前颜色连续喷涂的次数,即该颜色的实时批量,Bp为颜色批量上限;
步骤2.3:定义动作空间;动作空间为当前可进入喷涂区进行喷涂的订单类型,动作空间定义为:A={[i,j]|1≤i≤c,1≤j≤m},并对动作空间进行整数编码,每一个动作用整数标识,即A={au|1≤u≤c...

【专利技术属性】
技术研发人员:金淳付玉婷杨子璇冷浕伶
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1