基于深度强化学习的带时间窗的车辆路径规划方法技术

技术编号：42079444 阅读：12 留言：0更新日期：2024-07-19 16:57

本发明专利技术公开了一种基于深度强化学习的带时间窗的车辆路径规划方法，包括：1建立同时考虑用户时间窗和三种不同车型的有容量限制的车辆路径规划问题的目标函数，以包含碳排放量的总消耗量最小为目标，为车辆寻求合理路线，实现根据客户不同的需求选择车型，并且使车辆在客户不同的时间窗要求内满足其需求；2确定模型初始信息及约束条件，并建立马尔科夫决策过程；然后提取配送中心轻、中、重三种车型信息和顾客需求信息的高维特征表示，设计合适的解码器掩码机制；3通过策略梯度方法训练模型，实现有多个约束条件的合理车辆路径规划。本发明专利技术能实现对客户需求的精确快速响应，提高配送中心的车辆调度效率，并降低运输成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体的说是一种基于深度强化学习的带时间窗的车辆路径规划方法。

技术介绍

1、车辆路径问题是供应链物流中的基本规划问题，其本质是为了快速响应客户需求，提高客户服务质量，降低配送成本，由一个车队向多个地理位置分散的客户点配送货物，在满足一系列约束条件的前提下，寻找最优配送路线，以满足货物在仓库和客户点之间的运输总费用最低、使用车辆数目最少、配送时间最短。

2、近年来，我国物流业迅速发展，但与此同时，作为一个能源消耗和碳排放量庞大的国家，能源短缺和环境污染问题日益突出，发展绿色低碳的物流运输模式迫在眉睫。因此配送中心的绿色车辆路径规划方法具有必要性，然而，现有的车辆路径规划研究大多仅着眼于降低运输时间和运输成本两方面。因此，利用深度学习方法，在同时考虑时间窗和绿色物流的基础上，提取数据的高维度特征表示和建立模型，辅以强化学习对模型参数进行训练，对配送中心车辆路径问题的研究至关重要。

技术实现思路

1、本专利技术是为了解决上述现有技术存在的不足之处，提出一种基于深度强化学习的带时间窗的车辆路径规划方法，以期能实现对客户需求的精确快速响应，从而能提高配送中心的车辆调度效率，并能降低运输成本。

2、为实现上述目的，本专利技术采取的技术方案是：

3、本专利技术一种基于深度强化学习的带时间窗的车辆路径规划方法的特点在于，是应用于由单个配送中心v0，n个客户以及包含轻、中、重三种车型的k辆车组成的配送场景中，并将所述配送场景定义为一个完全无

4、步骤s1、建立车辆路径规划模型的目标函数及其约束条件：

5、步骤s1.1、利用式(4)建立总目标函数f：

6、

7、式(4)中，f1表示带时间窗的车辆路径规划的第一目标函数，f2表示带时间窗的车辆路径规划的第二目标函数，表示带时间窗的车辆路径规划的第三目标函数；表示第k辆车到达第i个节点vi的时刻；

8、步骤s1.2、利用式(5)-式(9)构建约束条件：

9、

10、

11、

12、

13、

14、式(5)和式(6)表示每个客户节点都能被服务到且只能被一辆车服务；其中，表示第k辆车是否从第i个节点vi行驶到第j个节点vj；

15、式(7)表示在每个节点处的第k辆车的出度等于入度，即如果第k辆车到达第j个节点，那么第k辆车也需离开第j个节点，表示第k辆车是否从第j个节点vj行驶到第i个节点vi，若是，则令否则，令

16、式(8)表示所述配送车从配送中心v0出发后，完成服务任务后必须全部返回配送中心v0；当时，表示第k辆车从配送中心v0行驶到第j个节点vj；当时，表示第k辆车从第i个节点vi行驶到配送中心v0；

17、式(9)表示第k辆车在行驶路径中的容量约束，qk表示第k辆车的容量，第k辆车在行驶路径中的所有客户节点的需求之和不能超过车辆容量；

18、步骤s2、构建基于注意力机制的编码器，用于对第i个客户节点vi的静态特征xi＝{(xi,yi),(eti,lti),qi}进行处理，并得到第i个客户节点vi的注意力向量从而得到客户节点注意力向量

19、步骤s3、构建基于注意力机制的解码器，用于对注意力向量的均值havg和第k辆车在时间步t的上下文特征进行处理，并得到在时间步t的最大车辆概率值所对应的车辆z的动作

20、步骤s4，利用式(20)计算在时间步t时车辆z选择动作的奖励

21、

22、式(20)中，分别为车辆z的第一、第二、第三目标函数；表示车辆z到达节点l的时刻；

23、步骤s5、利用式(21)得到在时间步t+1时的所有车辆状态信息gt+1，并将在时间步t+1时所有节点的状态信息记为其中，表示在时间步t+1时第i个节点的状态信息，且其中，si表示第i个节点位置坐标(xi,yi)的二维向量，表示在时间步t+1时第i个节点的需求量，当i＝0时，表示配送中心的状态信息，eti＝0，lti为固定值；从而将在时间步t+1时的状态信息记为st+1＝(gt+1,xt+1)：

24、

25、式(21)中，表示在时间步t+1之前第k辆车已访问的节点序列，且表示在时间步t时第k辆车访问的客户节点的节点嵌入向量，为第k辆车在时间步t+1的累计行驶时间；表示第k辆车在时间步t+1时的剩余容量；

26、步骤s6、根据时间步t+1的状态信息st+1，利用所述解码器得到时间步t+1的动作at+1，从而计算出时间步t+1的奖励值rt+1，进而构建轨迹τ＝{s1,a1,r1,...,st,at,rt,st+1,at+1,rt+1,...,sy,ay,ry}；其中，{a1,...,at,at+1,...,ay}表示车辆路径规划方案；

27、采用reinforce算法对所述解码器中的所有参数进行训练，直到参数收敛为止，从而得到最优车辆路径规划模型，用于输出满足所有客户节点下的最优车辆路径规划方案。

28、本专利技术所述的基于深度强化学习的带时间窗的车辆路径规划方法的特点也在于：所述步骤s1.1中是利用式(1)建立带时间窗的车辆路径规划的第一目标函数f1：

29、

30、式(1)中，为第k辆车的固定消耗量，为第k辆车的可变消耗量；表示第k辆车是否从第i个节点vi行驶到第j个节点vj，若是，则令否则，令

31、利用式(2)建立带时间窗的车辆路径规划的第二目标函数f2：

32、

33、式(2)中，为第k辆车从第i个节点vi行驶到第j个节点vj的碳排放量，表示第k辆车从第i个节点vi行驶到第j个节点vj所装载的商品量；

34、利用式(3)建立带时间窗的车辆路径规划的第三目标函数

35、

36、式(3)中，代表第k辆车到达第i个节点vi的时刻，代表第k辆车到达第i个节点vi的时刻与第i个节点vi期望服务的开始时间eti之间的时间差，代表第k辆车到达第i个节点vi的时刻与第i个节点vi期望服务的结束时间lti之间的时间差，α为设定的时间窗早到惩罚值，β为设定的时间窗迟到惩罚值。

37、所述步骤s2中的基于注意力机制的编码器包括：映射层、第一多头注意力层、前馈层本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于，是应用于由单个配送中心v0，n个客户以及包含轻、中、重三种车型的K辆车组成的配送场景中，并将所述配送场景定义为一个完全无向图G＝(V,E)，其中，V＝{vi|i＝0,1,2...n}表示节点集合，E＝{(i,j)|i≠j,(i,j∈V)}表示连接各节点的弧集合；当i＝0时，vi表示配送中心节点，当1≤i≤n时，vi表示第i个客户节点，令第i个客户节点vi的节点坐标记为(xi,yi)，第i个客户节点vi的需求量记为qi，第i个客户节点vi的期望时间窗记为[ETi,LTi]，其中，ETi表示第i个客户节点vi期望服务的开始时间，LTi表示第i个客户节点vi期望服务的结束时间；所有车辆均以配送中心节点v0为路线的起点和终点，所述车辆路径规划方法包括如下步骤：

2.如权利要求书1所述的基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于：所述步骤S1.1中是利用式(1)建立带时间窗的车辆路径规划的第一目标函数f1：

3.如权利要求书2所述的基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于

4.如权利要求书3所述的基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于，所述步骤S3中基于注意力机制的解码器，包括：上下文嵌入层、车辆概率计算层、第二多头注意力层、关系比较层：

5.如权利要求书2所述的基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于：所述步骤S1.2中是利用式(22)得到第k辆车从第i个节点vi行驶到第j个节点vj所耗费的碳排放量成本

6.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-5中任一所述车辆路径规划方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

7.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-5中任一所述车辆路径规划方法的步骤。

...

【技术特征摘要】

1.一种基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于，是应用于由单个配送中心v0，n个客户以及包含轻、中、重三种车型的k辆车组成的配送场景中，并将所述配送场景定义为一个完全无向图g＝(v,e)，其中，v＝{vi|i＝0,1,2...n}表示节点集合，e＝{(i,j)|i≠j,(i,j∈v)}表示连接各节点的弧集合；当i＝0时，vi表示配送中心节点，当1≤i≤n时，vi表示第i个客户节点，令第i个客户节点vi的节点坐标记为(xi,yi)，第i个客户节点vi的需求量记为qi，第i个客户节点vi的期望时间窗记为[eti,lti]，其中，eti表示第i个客户节点vi期望服务的开始时间，lti表示第i个客户节点vi期望服务的结束时间；所有车辆均以配送中心节点v0为路线的起点和终点，所述车辆路径规划方法包括如下步骤：

2.如权利要求书1所述的基于深度强化学习的带时间窗的车辆路径规划方法，其特征在于：所述步骤s1.1中是利用式(1)建立带时间窗的车辆路径规划的第一目标函数f1：

3.如...

【专利技术属性】
技术研发人员：倪丽萍，严晨飞，倪志伟，朱旭辉，程绍奇，周建兴，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人