当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于深度强化学习的城市电动车辆调度方法和系统技术方案

技术编号:33290188 阅读:17 留言:0更新日期:2022-05-01 00:07
本发明专利技术公开了一种基于深度强化学习的城市电动车辆调度方法和系统,方法为一种端到端的方法,给定问题实例作为输入,利用训练好的深度神经网络可以直接输出问题的解。具体地,提出了一个可以捕捉和提取边信息的图神经网络对策略进行建模,以有效地解决非对称车辆路径问题,且提出了一个软约束+硬约束的两阶段训练方法,以有效地处理带时间窗电动车辆路径问题中的复杂约束。与传统方法相比,它能在获得更好求解效果的前提下大幅度地缩减求解时间。间。间。

【技术实现步骤摘要】
一种基于深度强化学习的城市电动车辆调度方法和系统


[0001]本专利技术涉及车辆路径问题领域,更具体地,涉及一种基于深度强化学习的城市电动车辆调度方法和系统。

技术介绍

[0002]车辆路径问题(Vehicle Routing Problem,VRP)是指一定数量的客户,各自有不同数量的货物需求,配送中心向客户提供货物,由一个车队负责分送货物,组织适当的行车路线,目标是使得客户的需求得到满足,并能在一定的约束下,达到诸如路程最短、成本最小、耗费时间最少等目的。车辆路径问题是一类经典的组合优化问题,属于NP难问题。由于其具有广泛的应用性和经济上的重大价值,因此受到了国内外学者的广泛研究。车辆路径问题的实际问题包括配送中心配送、公共汽车、工业废品收集等。
[0003]在基本车辆路径问题的基础上,根据不同的问题设定,产生了不同类型的车辆路径问题。近年来,新能源电动汽车受到了广泛的应用,相比于传统汽车,新能源电动汽车使用的是可再生的和清洁的能源,具有绿色环保的巨大优势,其市场份额也在逐年升高,在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向,由此,也衍生了大量关于电动车辆路径问题的研究。带时间窗的电动车辆路径问题(Electric Vehicle Routing Problem with Time Windows,EVRPTW)在基础车辆路径问题上增加了行驶里程约束和时间窗约束。具体地,给定一定数量的客户,每个客户有各自的货物需求和可被服务的时间窗,给定一个电动汽车车队,每一电动汽车具有有限的装载容量和有限的行驶里程,其从仓库出发,沿途在规定的时间窗内为客户提供货物,途中可访问充电站充电以增加行驶里程,最终在规定的最晚时间之前回到仓库,要求为该电动汽车车队组织适当的行驶路线,在满足客户需求及时间、容量、行驶里程约束下使得总的路径长度最短。
[0004]当前,求解车辆路径问题的方法主要可以分为精确算法、启发式/元启发式算法和深度强化学习优化算法。精确算法是可以求解得到全局最优解的算法,包括分支界限法、动态规划法等,由于车辆路径问题是NP难题,因此精确算法的计算量会随着问题规模呈指数级增长,难以扩展到大规模问题。启发式/元启发式算法是基于直观或经验构造的算法,其可以在可接受的计算时间内求出一个可行解,但无法保证解的质量,具体包括模拟退火、禁忌搜索、遗传算法等,启发式/元启发式算法一般是迭代型优化算法,当问题规模很大时大量的迭代搜索仍然会导致较大的计算量,且一旦问题发生变化便需要重新进行搜索求解,此外,启发式规则的设计通常需要对问题具有深入的了解和研究,导致了算法设计的困难。
[0005]深度强化学习优化算法是近年来兴起的一种求解方法,相比于传统方法,深度强化学习优化算法具有求解速度快、泛化能力强的优势,其可以分为两大类:一类是构造式方法,其采用端到端方式,给定问题实例作为输入,利用训练好的深度神经网络直接输出问题的解,其中神经网络的参数由深度强化学习训练得到,相对于传统的迭代型优化算法,构造式方法无需搜索而直接输出问题的解,具有求解速度快的优势,且模型一旦训练完成,便可以对具有相同分布特性的所有问题实例进行求解,具有一定的泛化能力,而传统算法则对
于每一新的问题实例都需要从头开始进行搜索求解,十分耗时。另一类是提升式方法,其在迭代搜索框架下,利用深度强化学习对启发式规则进行学习和选择,通过学习到的规则进行解的迭代搜索,该类方法通过神经网络模型代替人为手工设计,从而降低了算法设计的困难性,由于其本质上仍然是迭代型优化算法,因此该类方法虽具有较好的优化效果,但是其求解速度则远不及构造式的端到端方法。
[0006]在现有的求解车辆路径问题的深度强化学习优化算法研究中,存在两点不足:其一是问题脱离现实场景,当前大多数研究都聚焦于对称的车辆路径问题,结点之间的距离为通过坐标计算而来的欧式距离,是对称的,然而,在现实的车辆路径问题中,结点之间的距离不可能是简单的欧式距离,也几乎不可能是对称的,因此有必要将深度强化学习优化算法推广到非对称的车辆路径问题上。其二是缺乏有效地约束处理机制来解决车辆路径问题中的复杂约束,当前在构造式深度强化学习优化算法的训练过程中通常采取直接屏蔽非法动作的方式对约束进行处理,该硬约束处理方法虽可保证生成可行解,但一定程度上影响了模型的求解质量。
[0007]现有技术中公开了一种求解带软时间窗物流运输车辆路径问题的方法,针对基于实时交通信息的带软时间窗物流运输车辆路径问题,采用时间窗惩罚机制,建立其数学模型;使用自适应混沌蚁群算法求解该模型,通过算法信息素的自适应更新和算法参数的混沌自适应调整来提高算法的寻优能力。该方法耗时久,无法很好的应用于实际案例中。

技术实现思路

[0008]本专利技术的首要目的是提供一种基于深度强化学习的城市电动车辆调度方法,在获得更好求解效果的前提下大幅度地缩减求解时间。
[0009]本专利技术的进一步目的是提供一种基于深度强化学习的城市电动车辆调度系统。
[0010]为解决上述技术问题,本专利技术的技术方案如下:
[0011]一种基于深度强化学习的城市电动车辆调度方法,其特征在于,包括以下步骤:
[0012]S1:将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
[0013]S2:使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
[0014]S3:使用解码器进行解码,在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
[0015]S4:根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
[0016]S5:将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
[0017]进一步地,所述步骤S1中结点信息为v
i
=(d
i
,e
i
,l
i
,t
i
),其中,d
i
表示客户需求,e
i
表示最早服务时间,l
i
表示最晚服务时间,t
i
表示节点类型,且有:
[0018][0019]其中,V
d
,V
s
,V
c
分别表示仓库结点集合、充电站结点集合和客户结点集合。
[0020]进一步地,所述步骤S1中边信息为e
ij
=(dis
ij
,time
ij
,a
ij
),其中,dis
ij
表示距离,time
ij
表示时间,a
ij
表示最近邻,且有:
[0021][0022]进一步地,所述步骤S2具体包括以下步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的城市电动车辆调度方法,其特征在于,包括以下步骤:S1:将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;S2:使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;S3:使用解码器进行解码,在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;S4:根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;S5:将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。2.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S1中结点信息为v
i
=(d
i
,e
i
,l
i
,t
i
),其中,d
i
表示客户需求,e
i
表示最早服务时间,l
i
表示最晚服务时间,t
i
表示节点类型,且有:其中,V
d
,V
s
,V
c
分别表示仓库结点集合、充电站结点集合和客户结点集合。3.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S1中边信息为e
ij
=(dis
ij
,time
ij
,a
ij
),其中,dis
ij
表示距离,time
ij
表示时间,a
ij
表示最近邻,且有:4.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S2具体包括以下步骤:S2.1:使用两个嵌入层分别将所述结点信息v
i
和边信息e
ij
映射成高维的特征向量,得到图神经网络的第一层输入和和和式中,W
V
,b
V
,W
E
,b
E
均为可训练的参数;S2.2:使用图神经网络,将和经过N层图神经网络得到最终的特征向量表示,在图神经网络的每一层中,每一点和边都会聚集相邻点和边的信息以更新自身,其中点特征表示的更新方式为:示的更新方式为:示的更新方式为:
边特征表示的更新方式为:边特征表示的更新方式为:边特征表示的更新方式为:其中MHA是多头注意力子层,FF是全连接子层,BN是批正则化子层,;表示拼接操作,σ是激活函数Relu,均为可训练的参数,最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。5.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S3具体包括以下步骤:S3.1:根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息,先使用glimpse机制计算出一个查询向量,具体地,假设车辆当前在i结点,则计算出查询向量:c
t
=W
C
C
t
+b
C
h
t
=GRU
t
(h
i
)式中,MHA表示多头注意力层,W
C
,b
C
均为可训练的参数,C
t
=(T
t
,D
t
,B
t
)表示当前车辆状态信息,T
t
是当前时间,D
t
是剩余容量,B
t
是剩余行驶里程,h
j
和表示对应点和边的特征向量表示;S3.2:采取注意力机制,根据查询向量q
t
及与结点i相邻点和边的隐向量计算出每一结点的权重,即概率分布p
t
::p
t

【专利技术属性】
技术研发人员:王甲海黄欢欢
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1