当前位置: 首页 > 专利查询>中山大学专利>正文

基于元学习的深度强化学习求解多目标旅行商问题的方法技术

技术编号:28470743 阅读:114 留言:0更新日期:2021-05-15 21:38
本发明专利技术公开了一种基于元学习的深度强化学习求解多目标旅行商问题的方法,包括以下步骤:S1:定义多目标旅行商问题;S2:将多目标旅行商问题按照权重加和的方式分解为一组单目标优化的子问题;S3:构建基于元学习的深度强化学习算法框架并对深度强化学习算法框架中的元模型进行训练;S4:对于步骤S2中得到的每一组单目标优化的子问题,所述元模型进行步数的参数微调得到对应的子模型;S5:利用子模型求解子问题;S6:所有子问题的解的集合为多目标旅行商问题的解。本发明专利技术方法只需要训练好一个元模型,便能对任意给定的权重只需要对该元模型做少量的参数更新便能快速微调出该权重对应的模型并得到令人满意的解。对应的模型并得到令人满意的解。对应的模型并得到令人满意的解。

【技术实现步骤摘要】
基于元学习的深度强化学习求解多目标旅行商问题的方法


[0001]本专利技术涉及运筹学领域中的多目标优化领域,更具体地,涉及一种基于元学习的深度强化学习求解多目标旅行商问题的方法。

技术介绍

[0002]旅行商问题是一种经典的NP

hard组合优化问题,在物流调度行业中有着广泛的应用。根据现实生活中实际约束和优化目标的不同,又有多种不同的变种,如带容量约束或时间窗约束的车辆路径规划问题,需路径平衡优化的车辆路径规划问题等等。而本专利技术研究的是旅行商问题的一个经典变种:多目标旅行商问题(MOTSP)。
[0003]目前解决多目标旅行商问题的传统解法以基于迭代的启发式及演化计算的方法为主,如NSGA

II、MOEA/D、PLS、MOGLS及它们的变种方法等。这类方法的优点在于能够通过利用专家知识精心设计较好的算子并经过大量迭代得到较优的解,而缺点在于迭代所需运行时间往往较长。
[0004]近年来深度强化学习在求解单目标NP

hard组合优化问题上有了突破性的发展,利用这种方法只需要训练一个神经网络模型便能对任意给定的算例利用该模型构造出令人满意的解且这种模型对不同规模算例还具有很好的泛化能力,在求解时间上具有极大的优势。于是便有研究者对多目标旅行商问题利用权重分解的方法先将该多目标优化问题转化为多个单目标优化子问题再使用近年来的深度强化学习方法分别对每个单目标优化子问题训练对应的子模型用于求解,最后所有这些子问题通过对应的子模型得到的解能构成多目标优化的帕累托前沿解集。然而,这类方法的劣势在于整体训练强烈依赖于在训练所有子模型之前预先给定的权重,获得的解的质量也依赖于预先给定的权重,对每个权重都无法灵活地适应之前未给出的权重,当新的权重出现时又需要对每个权重对应的新子问题分别训练对应的子模型,这往往需要耗费大量的训练。虽然迁移学习被研究者提出用于加速训练,但是迁移学习要求每次训练求解的子问题的权重足够接近,因此这种方法依然灵活性不足,仅适用于优化求解连续相邻且很接近的子问题的训练。
[0005]公开日为2016年04月20日,公开号为CN105512755A的中国专利公开了一种基于分解的多目标分布估计优化方法,其特征在于包括以下内容:1)初始化外部种群EP为空;2)初始化一组权重向量;3)利用权重向量将原多目标优化问题分解为多个单目标优化子问题;4)利用概率向量对每个分解后的子问题建模;5)通过随机采样概率向量分别优化每个单目标问题产生新解;6)保存计算所有的新解到EP中,判断是否满足终止条件如果否则返回步骤3),如果是则停止,得到所有子问题中的优化解。该专利同样无法灵活地适应之前从未给出的子问题。

技术实现思路

[0006]本专利技术提供一种基于元学习的深度强化学习求解多目标旅行商问题的方法,从不同学习任务的经验中学习,以更快地学习新任务。
[0007]为解决上述技术问题,本专利技术的技术方案如下:
[0008]一种基于元学习的深度强化学习求解多目标旅行商问题的方法,包括以下步骤:
[0009]S1:定义多目标旅行商问题;
[0010]S2:将多目标旅行商问题按照权重加和的方式分解为一组单目标优化的子问题;
[0011]S3:构建基于元学习的深度强化学习算法框架并对深度强化学习算法框架中的元模型进行训练;
[0012]S4:对于步骤S2中得到的每一组单目标优化的子问题,所述元模型进行步数的参数微调得到对应的子模型;
[0013]S5:利用子模型求解对应的子问题;
[0014]S6:所有子问题的解的集合为多目标旅行商问题的解。
[0015]本专利技术在已有的深度强化学习方法基础上引入一种基于元学习的方法,训练一个元模型用于快速适应所有潜在的权重。元学习,也称学会如何学习,是一门系统地观察机器学习方法如何在广泛的不同学习任务中执行的科学,并从不同学习任务的经验中学习,以更快地学习新任务。
[0016]优选地,所述步骤S1中:
[0017]多目标旅行商问题定义在完全图G=(V,E)上,其中V代表点集,包含n个要访问的点;E代表边集,包含m个n
×
n的代价矩阵,即任意两点i,j之间都存在m个不同的代价,如:时间、花费、海拔高度差等,这m个不同代价对应m个不同的优化目标,需要访问图中的所有点且保证每个点仅被访问一次,最终需要找到n个点的排列π并同时优化m个不同的目标函数,其中第k个目标函数如下:
[0018][0019]其中代表第k个代价矩阵中点i和点j之间的代价值。
[0020]优选地,所述多目标旅行商问题属于多目标优化问题,多目标优化问题的定义:
[0021]最优化f(x)=(f1(x),f2(x),

,f
m
(x)),x满足x∈X
[0022]其中f(x)为由m个不同的目标函数组成的向量,表示变量x的n维决策空间,由于这m个不同的目标之间通常会存在一些冲突,往往无法同时使这m个目标函数都达到最优,因此对多目标优化问题一般寻求一组权衡多个目标的帕累托最优解,对于帕累托最优解的定义,多目标旅行商问题的目标最小化形式化如下:
[0023]给定两个m维的目标值向量u,v∈R
m
,称u支配v当且仅当对任意i∈{1,2,

,m}都有u
i
≤v
i
成立且至少存在一个j∈{1,2,

,m}使得u
j
<v
j
成立,对于某个解x
*
∈X,如果不存在解x∈X使得f(x)支配f(x
*
),那么x
*
被称为帕累托最优解,所有的帕累托最优解构成了帕累托解集PS,其对应的目标值向量集合{f(x
*
)|x
*
∈PS}被称为帕累托前沿PF。
[0024]优选地,步骤S2中,运用深度强化学习方法求解多目标优化问题的准备工作是使用分解策略将多目标优化问题分解为一组单目标优化的子问题,便可对每个子问题采用深度强化学习方法训练一个模型用于求解,分解策略是一种简单而有效的多目标优化处理策略,MOEA/D算法便是使用分解策略的典型代表算法,对多目标优化问题分解为一组单目标优化的子问题,通过设立N个权重将多目标优化问题分解为N个标量优化子问题。
[0025]优选地,所述的分解策略包括线性加权法、切比雪夫分解法和PBI方法。
[0026]优选地,所述线性加权法具体为:
[0027]对每个权重对应第j个子问题,其中且对第j个子问题需要优化的目标函数转换为如下:
[0028]最优化其中j=1,2,

,N
[0029]g
ws
(π|λ
j
)表示需要优化的目标函数,其中π表示解
[0030]因此,可将每个子问题看作一个单目标优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元学习的深度强化学习求解多目标旅行商问题的方法,其特征在于,包括以下步骤:S1:定义多目标旅行商问题;S2:将多目标旅行商问题按照权重加和的方式分解为一组单目标优化的子问题;S3:构建基于元学习的深度强化学习算法框架并对深度强化学习算法框架中的元模型进行训练;S4:对于步骤S2中得到的每一组单目标优化的子问题,所述元模型进行步数的参数微调得到对应的子模型;S5:利用子模型求解对应的子问题;S6:所有子问题的解的集合为多目标旅行商问题的解。2.根据权利要求1所述的基于元学习的深度强化学习求解多目标旅行商问题的方法,其特征在于,所述步骤S1中:多目标旅行商问题定义在完全图G=(V,E)上,其中V代表点集,包含n个要访问的点;E代表边集,包含m个n
×
n的代价矩阵,即任意两点i,i之间都存在m个不同的代价,这m个不同代价对应m个不同的优化目标,需要访问图中的所有点且保证每个点仅被访问一次,最终需要找到n个点的排列π并同时优化m个不同的目标函数,其中第k个目标函数如下:其中代表第k个代价矩阵中点i和点j之间的代价值。3.根据权利要求2所述的基于元学习的深度强化学习求解多目标旅行商问题的方法,其特征在于,所述多目标旅行商问题属于多目标优化问题,多目标优化问题的定义:最优化f(x)=(f1(x),f2(x),...,f
m
(x)),x满足x∈X其中f(x)为由m个不同的目标函数组成的向量,表示变量x的n维决策空间,由于这m个不同的目标之间通常会存在一些冲突,往往无法同时使这m个目标函数都达到最优,因此对多目标优化问题一般寻求一组权衡多个目标的帕累托最优解,对于帕累托最优解的定义,多目标旅行商问题的目标最小化形式化如下:给定两个m维的目标值向量u,v∈R
m
,称u支配v当且仅当对任意i∈{1,2,...,m}都有u
i
≤v
i
成立且至少存在一个j∈{1,2,...,m}使得u
j
<v
j
成立,对于某个解x
*
∈X,如果不存在解x∈X使得f(x)支配f(x
*
),那么x
*
被称为帕累托最优解,所有的帕累托最优解构成了帕累托解集PS,其对应的目标值...

【专利技术属性】
技术研发人员:吴植园张子臻
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1