【技术实现步骤摘要】
一种解决漫游取送位置和时间窗的有容量约束车辆路径问题的深度强化学习方法
[0001]本专利技术专利涉及一种车辆路径规划方法,在城市物流取配领域具有重要的应用前景。
技术介绍
[0002]随着我国经济由高速发展向高质量发展的转变,优化车辆路径也成为提高物流行业效率和推动可持续发展的重要手段之一。车辆路径问题(Vehicle Routing Problem,VRP)作为运筹学、计算机科学及图论等多个学科的主要研究方向,不仅是优化城配物流运输效率的重要依据,更是实现节能减排的重点问题。而在传统的有容量约束的车辆路径问题中,规定车辆都是以满足客户的需求为目标,从网点装载货物给不同的客户分配相同种类的货物。但在实际城市物流配送过程中,物流的运输都是以完成所有订单为目标。由于不同货主提供的货物种类可能存在差异,车辆必须确保将来自同一货主的货物分配给对应的客户,以避免混淆或错误交付。为了最大程度地减少成本并提高配送效率,车辆运输过程中不仅要考虑满足客户需求,还需要优化整个运输过程,并适应不同货主和客户位置的变化。同时,现实中货主和客户的位置、订单数量等都处于频繁变化之中,这增加了运输路线规划的难度和复杂性。因此,提出了一种深度强化学习方法来解决具有漫游取送位置和时间窗的有容量约束车辆路径问题(Capacitated Vehicle Routing problem with Roaming pickup and delivery Locations and Time Windows,CVRPRPDLTW),使车辆能对每个货主或客户服 ...
【技术保护点】
【技术特征摘要】
1.一种解决漫游取送位置和时间窗的有容量约束车辆路径问题的深度强化学习方法,其特征在于包括下述步骤:定义:CVRPRPDLTW全称为Capacitated Vehicle Routing problem with Roaming pickup and delivery Locations and Time Windows,即具有漫游取送位置和时间窗的有容量约束车辆路径问题,是本发明设计的新问题,DRPDRL全称为Dynamic Roaming Position Deep Reinforcement Learning Method,即动态漫游位置的深度强化学习方法,本发设计了一种考虑多维度特性的Transformer架构,来增强深度强化学习拟合不同场景的能力,在这种架构中,通过三个编码器层处理具有不同维度的信息,解码器层融合这些信息来进行路线构建,以自动选择订单来学习构建解决方案,这种方法能够大规模实例上快速求出可行解来满足车辆路径实时决策的需要;步骤1:对CVRPRPDLTW的混合整数规划公式进行问题建模;本发明定义所有节点的集合为X=(D,H,C),D是网点,H是货主,C是客户,在个节点集合x=(x1,x2,...,x
n
),其中x
i
∈R8定义为其中分别表示节点对应两个位置的坐标及其开始和结束时间,第一个位置的开始和结束时间分别为第二个位置的开始和结束时间分别为车辆的最大载重为V={(Q)},需要完成的订单数量为N,每个订单表示order
i
:(x
u
,x
v
,w
i
),每个订单有不同的id,表示第i个订单,货主x
u
给客户x
v
配送货物体积w
i
,定义决策变量如下:其中,y
ij
是一个二元变量,车辆从x
i
直接行驶到x
j
,则等于1,否则等于0,令D(x
i
,x
j
)为x
i
和x
j
之间的欧氏距离,令t
ij
为车辆从节点x
i
行驶到节点x
j
的时间,令T
i
为连续变量,表示车辆离开位置x
i
的时间,令L
i
为连续变量,表示车辆离开位置x
i
后负载,令M为一个足够大的值,用于确保取货和交货的两个约束中只有一个有效,为了简化,假设所有车辆都具有相同的速度s,可以很容易地将其扩展为采用不同的值,然后,CVRPRPDLTW的目标函数可以表示为:步骤2:马尔可夫决策过程建模;在CVRPRPDLTW中车辆从网点出发分步取送货的过程也可以看作是一个顺序决策问题,因此,本发明将这样的路线构建过程建模为马尔可夫决策过程(Markov Decision Process,MDP),由四元组表示,S表示状态空间,A为动作空间,为状态转移规则,R为奖励函数,MDP的元素,即状态空间、动作空间、转换规则和奖励函数定义如下:步骤2.1:状态;在本发明的MDP中,每个状态s
t
=(D
t
,L
t
,Z
t
)∈S由三部分组成,第一部分是当前车辆位置距未完成订单相应点的距离,表示为其中和分别表示车辆在步骤t时距订单i相应节点的两个位置的距离,第二部分是未完成订单的装卸载量L
t
,表示为其中是表示在步骤t时订单i需要装载或者卸载的重量,第三部分
是所有订单的状态Z
t
,表示为其中是表示在步骤t时订单i的状态(订单有三种状态待运状态等于0、在运状态等于1、完成状态等于2);步骤2.2:动作;在本发明中的动作定义为选择要访问的订单,具体来说,在a
t
∈A处的动作表示为即车辆要完成订单i的取货或者送货服务;步骤2.3:状态转移规则;转换规则将根据在处执行的动作将前一个状态s
t
转换到下一个状态s
t+1
,即当前车辆位置距未完成订单相应点的距离D
t
中的元素更新如下:中的元素更新如下:其中x
i
是车辆当前位置,未完成订单的装卸载量L
t
中元素更新如下:订单的状态Z
t
更新如下:步骤2.4:奖励;对于CVRPRPDLTW,为了最小化车辆完成所有订单的时间,奖励定义为该值的负值,那么每步奖励及最终的奖励可以定义为:r(S
t+1
|S
t
)=t
ij
+wait
j
其中,t
ij
为车辆从节点x
i
行驶到节点x
j
的时间,wait
j
表示如果在点j处车辆需要等待,则加上等待时间;步骤3:构建DRPDRL框架;本发明专注于学习一种新颖的基于注意力的深度神经网络,其中策略网络能够在每个决策步骤中实现订单的选择,价值网络能够帮助策略网络进行策略更新,如图2所示,策略网络和价值网络由编码器解码器和解码器组成,在第一步(t=0)时,编码器对给定输入数据的本身执行一次计算,其输出可在后续步骤(t>0)中重复用于路线构建,为了解决这个实例,通过三个编码器处理原始特征以获得更好的表示,策略网络从所有未完成的订单中选择一个订单进行处理,价值网络会判断在当前状态下选择当前订单是否是好的,所选订单构成该步骤的动作,进一步用于更新状态,重复此过程,直到完成所有订单;为了解决CVRPRPDLTW,本发明提出了一个Transfo...
【专利技术属性】
技术研发人员:田冉,孙志慧,吴佳蕊,芦鑫,王进世,常龙龙,
申请(专利权)人:西北师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。