一种基于深度强化学习的城市电动车辆调度方法和系统技术方案

技术编号：33290188 阅读：17 留言：0更新日期：2022-05-01 00:07

本发明专利技术公开了一种基于深度强化学习的城市电动车辆调度方法和系统，方法为一种端到端的方法，给定问题实例作为输入，利用训练好的深度神经网络可以直接输出问题的解。具体地，提出了一个可以捕捉和提取边信息的图神经网络对策略进行建模，以有效地解决非对称车辆路径问题，且提出了一个软约束+硬约束的两阶段训练方法，以有效地处理带时间窗电动车辆路径问题中的复杂约束。与传统方法相比，它能在获得更好求解效果的前提下大幅度地缩减求解时间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的城市电动车辆调度方法和系统

[0001]本专利技术涉及车辆路径问题领域，更具体地，涉及一种基于深度强化学习的城市电动车辆调度方法和系统。

技术介绍

[0002]车辆路径问题(Vehicle Routing Problem，VRP)是指一定数量的客户，各自有不同数量的货物需求，配送中心向客户提供货物，由一个车队负责分送货物，组织适当的行车路线，目标是使得客户的需求得到满足，并能在一定的约束下，达到诸如路程最短、成本最小、耗费时间最少等目的。车辆路径问题是一类经典的组合优化问题，属于NP难问题。由于其具有广泛的应用性和经济上的重大价值，因此受到了国内外学者的广泛研究。车辆路径问题的实际问题包括配送中心配送、公共汽车、工业废品收集等。
[0003]在基本车辆路径问题的基础上，根据不同的问题设定，产生了不同类型的车辆路径问题。近年来，新能源电动汽车受到了广泛的应用，相比于传统汽车，新能源电动汽车使用的是可再生的和清洁的能源，具有绿色环保的巨大优势，其市场份额也在逐年升高，在能源和环保的压力下，新能源汽车无疑将成为未来汽车的发展方向，由此，也衍生了大量关于电动车辆路径问题的研究。带时间窗的电动车辆路径问题(Electric Vehicle Routing Problem with Time Windows，EVRPTW)在基础车辆路径问题上增加了行驶里程约束和时间窗约束。具体地，给定一定数量的客户，每个客户有各自的货物需求和可被服务的时间窗，给定一个电动汽车车队，每一电动汽车具有有限的装载容量和有...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的城市电动车辆调度方法，其特征在于，包括以下步骤：S1：将带时间窗电动车辆路径问题建模成一个有向完全图，仓库、充电站和客户为图中的结点，任意两个结点之间通过边相连接，对需求、距离和时间数据分别进行归一化处理；S2：使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示；S3：使用解码器进行解码，在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息，以自回归的方式逐步构造路径，得到问题的解；S4：根据所述问题的解计算出总回报，使用REINFORCE算法对编码器和解码器的参数进行更新；S5：将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。2.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法，其特征在于，所述步骤S1中结点信息为v
i
＝(d
i
,e
i
,l
i
,t
i
)，其中，d
i
表示客户需求，e
i
表示最早服务时间，l
i
表示最晚服务时间，t
i
表示节点类型，且有：其中，V
d
，V
s
，V
c
分别表示仓库结点集合、充电站结点集合和客户结点集合。3.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法，其特征在于，所述步骤S1中边信息为e
ij
＝(dis
ij
,time
ij
,a
ij
)，其中，dis
ij
表示距离，time
ij
表示时间，a
ij
表示最近邻，且有：4.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法，其特征在于，所述步骤S2具体包括以下步骤：S2.1：使用两个嵌入层分别将所述结点信息v
i
和边信息e
ij
映射成高维的特征向量，得到图神经网络的第一层输入和和和式中，W
V
，b
V
，W
E
，b
E
均为可训练的参数；S2.2：使用图神经网络，将和经过N层图神经网络得到最终的特征向量表示，在图神经网络的每一层中，每一点和边都会聚集相邻点和边的信息以更新自身，其中点特征表示的更新方式为：示的更新方式为：示的更新方式为：
边特征表示的更新方式为：边特征表示的更新方式为：边特征表示的更新方式为：其中MHA是多头注意力子层，FF是全连接子层，BN是批正则化子层，；表示拼接操作，σ是激活函数Relu，均为可训练的参数，最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。5.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法，其特征在于，所述步骤S3具体包括以下步骤：S3.1：根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息，先使用glimpse机制计算出一个查询向量，具体地，假设车辆当前在i结点，则计算出查询向量：c
t
＝W
C
C
t
+b
C
h
t
＝GRU
t
(h
i
)式中，MHA表示多头注意力层，W
C
，b
C
均为可训练的参数，C
t
＝(T
t
,D
t
,B
t
)表示当前车辆状态信息，T
t
是当前时间，D
t
是剩余容量，B
t
是剩余行驶里程，h
j
和表示对应点和边的特征向量表示；S3.2：采取注意力机制，根据查询向量q
t
及与结点i相邻点和边的隐向量计算出每一结点的权重，即概率分布p
t
：：p
t

【专利技术属性】
技术研发人员：王甲海，黄欢欢，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人