一种解决漫游取送位置和时间窗的有容量约束车辆路径问题的深度强化学习方法技术

技术编号:39035389 阅读:13 留言:0更新日期:2023-10-10 11:48
本发明专利技术提供了一种用深度强化学习解决漫游取送位置和时间窗的有容量约束车辆路径问题的方法。该方法是一种考虑多维度特性的Transformer架构。具体来说,模型通过三个编码器层处理具有不同维度的信息,解码器层融合这些信息来进行路线构建,它通过自动选择订单来学习构建解决方案,与此同时,该方法考虑了车辆的等待时间,旨在最小化车队中车辆的最长或总行程时间。实验结果表明,该方法在总体解决质量方面优于最先进的深度强化学习方法和大多数传统启发式方法,并且具有更短的计算时间。本方法通过优化路线和避免不必要的出行等方式,降低行驶里程和成本、减少燃料消耗、碳排放和运营成本,同时促进可持续发展,提高环保意识和经济效益。意识和经济效益。意识和经济效益。

【技术实现步骤摘要】
一种解决漫游取送位置和时间窗的有容量约束车辆路径问题的深度强化学习方法


[0001]本专利技术专利涉及一种车辆路径规划方法,在城市物流取配领域具有重要的应用前景。

技术介绍

[0002]随着我国经济由高速发展向高质量发展的转变,优化车辆路径也成为提高物流行业效率和推动可持续发展的重要手段之一。车辆路径问题(Vehicle Routing Problem,VRP)作为运筹学、计算机科学及图论等多个学科的主要研究方向,不仅是优化城配物流运输效率的重要依据,更是实现节能减排的重点问题。而在传统的有容量约束的车辆路径问题中,规定车辆都是以满足客户的需求为目标,从网点装载货物给不同的客户分配相同种类的货物。但在实际城市物流配送过程中,物流的运输都是以完成所有订单为目标。由于不同货主提供的货物种类可能存在差异,车辆必须确保将来自同一货主的货物分配给对应的客户,以避免混淆或错误交付。为了最大程度地减少成本并提高配送效率,车辆运输过程中不仅要考虑满足客户需求,还需要优化整个运输过程,并适应不同货主和客户位置的变化。同时,现实中货主和客户的位置、订单数量等都处于频繁变化之中,这增加了运输路线规划的难度和复杂性。因此,提出了一种深度强化学习方法来解决具有漫游取送位置和时间窗的有容量约束车辆路径问题(Capacitated Vehicle Routing problem with Roaming pickup and delivery Locations and Time Windows,CVRPRPDLTW),使车辆能对每个货主或客户服务时间点上不断地进行决策,以更好的解决实际城配物流问题。
[0003]由于CVRPRPDLTW的复杂性,目前还没有切实可行的解决方案,而且传统解决方案中的蚁群、粒子群等启发式算法无法在该问题的大规模实例上快速求出可行解来满足车辆路径实时决策的需要。本专利技术设计了一种深度强化学习方法,即动态漫游位置的深度强化学习方法(Dynamic Roaming Position Deep Reinforcement Learning Method,DRPDRL),它是一种考虑多维度特性的Transformer架构。首先设计了一种具有表征CVRPRPDLTW中不同信息的Encoder

Decoder架构,通过三个编码器层处理具有不同维度的信息,解码器层融合这些信息来进行路线构建,以增强DRPDRL拟合不同场景的能力,用以自动选择订单。然后,提出在强化学习训练过程中全部使用动态的信息嵌入编解码器框架,这种策略能够更好的感知环境的动态变化,使车辆能够更好地处理订单。最后,按照均匀分布对订单进行了采样,学习到的策略能够为车辆选择取配订单找到更高质量的解决方案。验结果表明,本专利技术能够更好的解决CVRPRPDLTW,解决方案质量优于最先进的DRL方法和大多数传统启发式方法,并可以在极短的时间内产生解决方案。为求解CVRPRPDLTW问题提供了一种新的有效算法。

技术实现思路

[0004]深度强化学习在解决车辆路径问题方面虽然已经越来越有效地生成更高质量的
方案来,但现有的大多数基于深度强化学习的解决方案只专注于处理典型的VRP问题,即车辆从网点出发,不断选择下一个要访问的客户节点,直到满足所有客户的需求,最终形成车辆的完整路线。因此,这些工作的关键是选择下一个要访问的节点。然而,在实际的城配物流中,物流车辆是从订单角度出发,每一步选择下一个要处理的订单,并动态的根据时间来确定即将要访问节点的位置。显然,考虑到以下问题,这些工作在应用于解决更实际的CVRPRPDLTW时效果要差得多:(1)车辆无法根据客户需求判断当前车上是否有相应货物,并且车辆对具有移动性的节点位置不够敏感,无法实时决策要访问下一个节点的位置;(2)传统的模拟退火、蚁群等启发式算法无法在该问题的大规模实例上快速求出可行解来满足车辆路径实时决策的需要。
[0005]为了解决上述问题,本专利技术设计了一种动态漫游位置的深度强化学习方法。本专利技术主要包括五个部分:(1)对CVRPRPDLTW的混合整数规划公式进行问题建模。(2)马尔可夫决策过程建模。(3)构建DRPDRL框架(4)构建基于Actor

Critic的强化学习训练算法(5)对模型的有效性进行实验验证。
[0006]下面分别介绍以上五部分的内容:
[0007]1、对CVRPRPDLTW的混合整数规划公式进行问题建模。根据问题实例进行问题定义,定义CVRPRPDLTW的决策变量和目标函数。
[0008]2、马尔可夫决策过程建模。在CVRPRPDLTW中车辆从网点出发分步取送货的过程也可以看作是一个顺序决策问题,本专利技术中将这样的路线构建过程建模为马尔可夫决策过程。
[0009]3、构建DRPDRL框架。首先经过三个编码器分别将问题实例的原始特征进行处理。然后通过解码器融合三个并行编码器的输出,以选择最优动作概率的订单。这种方案能够使策略网络更全局地感知环境的变化。
[0010]4、构建Actor

Critic的强化学习训练算法。本专利技术中采用Actor

Critic(AC)算法训练用于订单选择的策略网络参数及评价其好坏的价值网络参数。
[0011]5、对模型的有效性进行实验验证。通过实验证明,本专利技术的整体性能优于大多数传统启发式方法,与先进的深度强化学习方法相比,实现了最佳的整体性能。更重要的是,与许多经典启发式方法不同,本专利技术可以随问题规模的增加很好地扩展,并且它不需要优先计算距离矩阵,尤其是在节点位置可以动态变化的车辆路径问题中。
[0012]本专利技术为实现上述目的所采取的详细实施步骤如下:
[0013]步骤1:对CVRPRPDLTW的混合整数规划公式进行问题建模。本专利技术定义所有节点的集合为X=(D,H,C)。D是网点,H是货主,C是客户。在个节点集合x=(x1,x2,...,x
n
),其中x
i
∈R8定义为其中分别表示节点对应两个位置的坐标及其开始和结束时间,第一个位置的开始和结束时间分别为第二个位置的开始和结束时间分别为车辆的最大载重为V={(Q)},需要完成的订单数量为N。每个订单表示order
i
:(x
u
,x
v
,w
i
),每个订单有不同的id,表示第i个订单,货主x
u
给客户x
v
配送货物体积w
i
。定义决策变量如下:
[0014][0015]其中,y
ij
是一个二元变量,车辆从x
i
直接行驶到x
j
,则等于1,否则等于0。令D(x
i
,x
j
)为x
i
和x
j
之间的欧氏距离。令t
ij
为车辆从节点x
i
行驶到节点x
j
的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解决漫游取送位置和时间窗的有容量约束车辆路径问题的深度强化学习方法,其特征在于包括下述步骤:定义:CVRPRPDLTW全称为Capacitated Vehicle Routing problem with Roaming pickup and delivery Locations and Time Windows,即具有漫游取送位置和时间窗的有容量约束车辆路径问题,是本发明设计的新问题,DRPDRL全称为Dynamic Roaming Position Deep Reinforcement Learning Method,即动态漫游位置的深度强化学习方法,本发设计了一种考虑多维度特性的Transformer架构,来增强深度强化学习拟合不同场景的能力,在这种架构中,通过三个编码器层处理具有不同维度的信息,解码器层融合这些信息来进行路线构建,以自动选择订单来学习构建解决方案,这种方法能够大规模实例上快速求出可行解来满足车辆路径实时决策的需要;步骤1:对CVRPRPDLTW的混合整数规划公式进行问题建模;本发明定义所有节点的集合为X=(D,H,C),D是网点,H是货主,C是客户,在个节点集合x=(x1,x2,...,x
n
),其中x
i
∈R8定义为其中分别表示节点对应两个位置的坐标及其开始和结束时间,第一个位置的开始和结束时间分别为第二个位置的开始和结束时间分别为车辆的最大载重为V={(Q)},需要完成的订单数量为N,每个订单表示order
i
:(x
u
,x
v
,w
i
),每个订单有不同的id,表示第i个订单,货主x
u
给客户x
v
配送货物体积w
i
,定义决策变量如下:其中,y
ij
是一个二元变量,车辆从x
i
直接行驶到x
j
,则等于1,否则等于0,令D(x
i
,x
j
)为x
i
和x
j
之间的欧氏距离,令t
ij
为车辆从节点x
i
行驶到节点x
j
的时间,令T
i
为连续变量,表示车辆离开位置x
i
的时间,令L
i
为连续变量,表示车辆离开位置x
i
后负载,令M为一个足够大的值,用于确保取货和交货的两个约束中只有一个有效,为了简化,假设所有车辆都具有相同的速度s,可以很容易地将其扩展为采用不同的值,然后,CVRPRPDLTW的目标函数可以表示为:步骤2:马尔可夫决策过程建模;在CVRPRPDLTW中车辆从网点出发分步取送货的过程也可以看作是一个顺序决策问题,因此,本发明将这样的路线构建过程建模为马尔可夫决策过程(Markov Decision Process,MDP),由四元组表示,S表示状态空间,A为动作空间,为状态转移规则,R为奖励函数,MDP的元素,即状态空间、动作空间、转换规则和奖励函数定义如下:步骤2.1:状态;在本发明的MDP中,每个状态s
t
=(D
t
,L
t
,Z
t
)∈S由三部分组成,第一部分是当前车辆位置距未完成订单相应点的距离,表示为其中和分别表示车辆在步骤t时距订单i相应节点的两个位置的距离,第二部分是未完成订单的装卸载量L
t
,表示为其中是表示在步骤t时订单i需要装载或者卸载的重量,第三部分
是所有订单的状态Z
t
,表示为其中是表示在步骤t时订单i的状态(订单有三种状态待运状态等于0、在运状态等于1、完成状态等于2);步骤2.2:动作;在本发明中的动作定义为选择要访问的订单,具体来说,在a
t
∈A处的动作表示为即车辆要完成订单i的取货或者送货服务;步骤2.3:状态转移规则;转换规则将根据在处执行的动作将前一个状态s
t
转换到下一个状态s
t+1
,即当前车辆位置距未完成订单相应点的距离D
t
中的元素更新如下:中的元素更新如下:其中x
i
是车辆当前位置,未完成订单的装卸载量L
t
中元素更新如下:订单的状态Z
t
更新如下:步骤2.4:奖励;对于CVRPRPDLTW,为了最小化车辆完成所有订单的时间,奖励定义为该值的负值,那么每步奖励及最终的奖励可以定义为:r(S
t+1
|S
t
)=t
ij
+wait
j
其中,t
ij
为车辆从节点x
i
行驶到节点x
j
的时间,wait
j
表示如果在点j处车辆需要等待,则加上等待时间;步骤3:构建DRPDRL框架;本发明专注于学习一种新颖的基于注意力的深度神经网络,其中策略网络能够在每个决策步骤中实现订单的选择,价值网络能够帮助策略网络进行策略更新,如图2所示,策略网络和价值网络由编码器解码器和解码器组成,在第一步(t=0)时,编码器对给定输入数据的本身执行一次计算,其输出可在后续步骤(t>0)中重复用于路线构建,为了解决这个实例,通过三个编码器处理原始特征以获得更好的表示,策略网络从所有未完成的订单中选择一个订单进行处理,价值网络会判断在当前状态下选择当前订单是否是好的,所选订单构成该步骤的动作,进一步用于更新状态,重复此过程,直到完成所有订单;为了解决CVRPRPDLTW,本发明提出了一个Transfo...

【专利技术属性】
技术研发人员:田冉孙志慧吴佳蕊芦鑫王进世常龙龙
申请(专利权)人:西北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1