基于深度强化学习的带返工汽车涂装重排序方法技术

技术编号：29332175 阅读：112 留言：0更新日期：2021-07-20 17:49

本发明专利技术属于资源、工作流、人员或项目管理领域，一种基于深度强化学习的带返工汽车涂装重排序方法，能够实时响应涂装车间中出现的返工情况，动态调整后续喷涂计划。所述重排序调度算法包括涂装交互环境构建模块、Actor‑Critic算法实现模块、离线训练模块、在线排序模块。所述涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化；所述算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构，该模块为本发明专利技术核心模块；所述离线训练模块根据实现的算法训练订单数据，获得重排序调度模型；所述在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的带返工汽车涂装重排序方法
本专利技术涉及一种基于深度强化学习的带返工汽车涂装重排序方法，属于资源、工作流、人员或项目管理领域。
技术介绍
在现代汽车制造系统中，汽车从车身车间加工后以总装需求序列顺序进入WBS(WhiteBodyStorage，白车身缓冲区)缓冲区中等待进入喷涂车间加工，喷涂车间为了降低颜色切换的运营成本，需要对当前订单序列进行重排序，同时为了降低下游总装车间的生产延误，保证订单能够遵守计划装配顺序，按时交付，在重排序时还需要降低与总装需求序列的偏差。然而在涂装过程中还存在因严重质量问题导致的返工修补情况，需要实时响应涂装车间的环境变化，动态调整涂装计划，以适应返工对当前重排序的影响和二次喷涂对当前喷涂序列的扰动。在我国，随着汽车制造业的发展和企业对降低生产成本提高行业竞争力的迫切需求，出现了用于解决汽车涂装车间订单序列重排序问题的方法。如中华人民共和国知识产权局专利号为CN201710555333.4的“一种解决WBS排序问题的调度方法”公布了一种将缓冲区抽象为FIFO队列的，基于指定规则和队列优先级决定汽车入道和出道的重排序调度方法，对于返工订单，直接根据队列优先级直接插入队列，该方法旨在解决涂装车间的不当排序导致的频繁颜色切换造成的物料浪费和高成本问题，为汽车涂装车间的重排序调度提供了一种方法。随着计算机技术，人工智能的发展，企业也开始使用先进的优化算法来解决生产调度问题。如中华人民共和国知识产权局专利号为“CN201910593608.2”的“用于汽车涂装车间...

【技术保护点】
1.一种基于深度强化学习的带返工汽车涂装重排序方法，/n在使用本算法进行重排序调度之前需要进行以下准备工作：/n(1)按照指定格式以数据表的形式存储订单数据；订单数据包含一次排序所需的订单集合，每个订单包含车身颜色和车身类型两个属性；/n(2)根据实际需求确定训练参数，并以数据表的形式存储参数，包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量；/n其特征在于，该带返工汽车涂装重排序方法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块和在线排序模块；涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化；Actor-Critic算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构；离线训练模块根据实现的算法训练订单数据，获得重排序调度模型；在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序；/n带返工汽车涂装重排序方法包括如下步骤：/n步骤一：涂装交互环境构建模块/n读取数据文件，初始化涂装交互环境，参数，记录订单数据的各项信息；/n步骤1.1：数据导入；读取订单序列文件，取出订...

【技术特征摘要】
1.一种基于深度强化学习的带返工汽车涂装重排序方法，
在使用本算法进行重排序调度之前需要进行以下准备工作：
(1)按照指定格式以数据表的形式存储订单数据；订单数据包含一次排序所需的订单集合，每个订单包含车身颜色和车身类型两个属性；
(2)根据实际需求确定训练参数，并以数据表的形式存储参数，包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量；
其特征在于，该带返工汽车涂装重排序方法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块和在线排序模块；涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化；Actor-Critic算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构；离线训练模块根据实现的算法训练订单数据，获得重排序调度模型；在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序；
带返工汽车涂装重排序方法包括如下步骤：
步骤一：涂装交互环境构建模块
读取数据文件，初始化涂装交互环境，参数，记录订单数据的各项信息；
步骤1.1：数据导入；读取订单序列文件，取出订单数据，将订单的属性车身颜色和车身类型按照对应关系存入表示订单的列表中；列表中的每一项元素表示一个订单，每个订单为包含车身颜色和车身类型的二元列表，遍历整个订单列表获取该订单的全部数据，包括车身颜色集合和车身类型集合，订单列表中的各订单顺序与原数据文件中的订单顺序一致；记录所需订单信息：
(1.1.1)根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码，使用字典记录各属性与整数的对应关系；
(1.1.2)计算集合列表中各订单类型的数目，一个订单类型为一车身颜色和类型的组合，使用字典记录各订单类型与其数目的对应关系；
(1.1.3)将各类型订单在序列中的位置集合以列表存储，并用字典记录各类型订单与其位置集合的对应关系；
步骤1.2：参数设置；读取参数设置文件，取出参数，将参数存入参数列表中，保证算法在整个过程中均可调用参数；根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值，包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量；
步骤1.3：初始化算法涂装交互环境，通过初始化全局环境变量来构建涂装交互环境，用以深度强化学习算法的交互和训练；涂装交互环境的全局变量包含：(1)Wbs，表示当前WBS中未进入喷涂车间的订单集合，记录当前各订单类型的剩余数量；(2)Painted，表示当前涂装序列，记录进入涂装车间的订单类型序列，其中也包括二次喷涂的车身；(3)Qualified，表示进入PBS的漆后合格序列；(4)Reworking，表示返工区的车身集合，返工结束后对应订单离开该序列；(5)Reworked，表示已经结束返工的车身集合，记录当前各订单类型中存在的已返工订单数目；(6)Location，表示未进入漆后合格序列Qualified中的各类型订单在总装需求序列中的位置集合；(7)T，记录当前时刻，初始为0；(8)Buffer，PBS中当前存在的漆后车身集合；
步骤二：Actor-Critic算法实现模块
构建数学模型，为深度强化学习算法定义状态空间、动作空间、奖励函数和设计算法结构；
步骤2.1：数学模型建立；根据订单数据和参数建立考虑返工的汽车涂装重排序调度问题的数学模型，确定目标函数和约束条件；其中，Ψ为子目标Φ颜色切换次数子目标和X总装需求偏差子目标的加权之和，ω1和ω2分别为两个子目标的权重，总目标为最小化子目标加权之和；根据步骤一中的订单数据导入，共有N个订单，c个车身颜色，m个车身类型；为0-1决策变量，若第n个订单颜色为i则取值1，否则取值0；为0-1决策变量，若第n个订单车身类型为j则取值1，否则取值0；Ni,j为车身颜色为i，车身类型为j的订单数量；k为返工订单的返工序号，为0-1变量，在t时刻，若订单n发生返工，则取值1，否则取值0，该订单为返工序列中的第k个返工订单，Nr为返工订单数量；为0-1变量，第k个返工订单n二次喷涂颜色为i则取值1，否则取值0；为0-1变量，第k个返工订单n车身类型为j则取值1，否则取值0；BS(t)、PS(t)、CS(t)、RS(t)和QS(t)表示t时刻WBS缓冲区、喷涂区、质检区、返工区和PBS缓冲区中的订单集合，B为初始订单集合；b为当前喷涂区颜色批次，Bp为喷涂区颜色批量上限；l为当前漆后缓冲区中车身数量，Ls为漆后缓冲区容量；
该数学模型的目标函数为最小化颜色切换次数和总装需求偏差两子目标的加权目标之和，约束为：(1)重排序后每个订单只能喷涂一种颜色；(2)重排序后每个订单只属于一种车型；(3)排序前后订单总数不变；(4)重排序后具有相同颜色和车身类型的订单数目不变；(5)订单在整个过程中只能进行一次返工；(6)车身经过返工后进行二次喷涂时的颜色和车身类型与第一次喷涂时相同；(7)整个重排序过程中的任意时刻，WBS，喷涂区，质检区，返工区，PBS中的订单集合之和为初始订单集合，全部订单集合没有发生变化；(8)每种颜色连续喷涂的次数不超过颜色喷涂批量的上限；(9)缓冲区中的车身数量不超过缓冲区最大容量；(10)各子目标的权重在[0,1]之间，且和为1；
minΨ＝ω1Φ+ω2X

0≤b≤Bp
l≤Ls
0≤ω1≤1,0≤ω2≤1,ω1+ω2＝1
步骤2.2：定义状态空间；状态空间为一个三元组，S＝<f1,f2,f3>；各元素如下：
(2.2.1)f1：标识当前正在喷涂的颜色，采用onehot编码，如果当前正在喷涂的颜色为i，那么否则且满足
(2.2.2)f2：标识当前各订单类型相对于总装需求序列的偏差程度，f2＝(d1,d2,…,dc×m)；若当前订单进入漆后合格序列中的位置为pq，为订单类型为u的订单在总装需求序列中的最近位置，则订单类型u与总装需求序列的偏差du表示订单类型u的偏差比例，|du|越大，表示偏差越大，du>0，说明订单会发生延误，du≤0说明订单未发生延误；当订单集合中没有订单类型为u的订单时，du＝0；
(2.2.3)f3：当前喷涂的颜色批量比例；其中B为当前颜色连续喷涂的次数，即该颜色的实时批量，Bp为颜色批量上限；
步骤2.3：定义动作空间；动作空间为当前可进入喷涂区进行喷涂的订单类型，动作空间定义为：A＝{[i,j]|1≤i≤c,1≤j≤m}，并对动作空间进行整数编码，每一个动作用整数标识，即A＝{au|1≤u≤c...

【专利技术属性】
技术研发人员：金淳，付玉婷，杨子璇，冷浕伶，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人