一种基于深度强化学习的特种保障车辆运维调度方法技术

技术编号：40265029 阅读：17 留言：0更新日期：2024-02-02 22:53

本发明专利技术提出一种基于深度强化学习的特种保障车辆运维调度方法，从车辆调度中心提取历史数据，包括特种保障车辆类型和数量，历史任务信息，每种任务下派出的特种保障车辆类型和数量、所有车辆行车总距离和服务范围；据此设置深度强化学习状态变量、动作变量和奖励函数，依据状态变量和动作变量计算奖励函数，采用改进差分进化算法求解奖励函数，得到奖励函数最优解；求解完成后，将以上数据存储用于深度强化学习智能体学习，深度强化学习智能体利用存储数据更新参数；学习结果满足阈值条件后智能体学习结束，使用学习完成的智能体进行不同任务下的车辆调度。本发明专利技术利用深度强化学习泛化性和改进差分进化算法求解速度快特点，提高了问题求解速率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于车辆运维调度，具体是一种深度强化学习算法和改进差分进化算法组合优化的特种保障车辆运维调度方法。

技术介绍

1、随着特种任务需求要求越来越细化，提高特种车辆在特殊场景下的调配效率，车辆运维调度问题的成为影响特种任务执行与保障的重要问题。车辆运维调度问题的研究，以完成任务的车辆最少、车辆行驶距离最短为目标，提高车辆调度效率，降低任务成本。

2、目前对车辆运维调度问题求解方法有精确算法(割平面法、分支界定法等)和启发式算法(遗传算法、蚁群算法等)。精确算法能够得到最优解，但是随着问题规模的增加，计算规模指数级增长；在解决问题的过程中有的是根据用户订单需求，把动态任务转变为静态任务计算行车成本，有的是根据历史任务信息预测可能的动态需求进行车辆调度。以上两种方式存在一定的误差和预测结果的偏差。

技术实现思路

1、为解决现有技术存在的问题，本专利技术提出了一种深度强化学习算法(drl)和改进差分进化算法(ide)组合优化的方法来进行车辆运维调度，本专利技术的调度方法包括以下步骤：

2、步骤1：从车辆调度中心提取历史数据，包括：车辆类型和数量，历史任务信息，每种任务下派出的车辆类型和数量、所有车辆行车总距离和服务范围；

3、步骤2：设置深度强化学习状态变量、动作变量和奖励函数；以任务信息为状态变量，每种任务下派出的车辆数目和车辆类型为动作变量，奖励函数是每种任务下派出的所有车辆行车成本的一个缩小量；

4、步骤3：依据步骤2设置的状态变

5、步骤4：步骤3求解完成后，将以上的数据存储用于深度强化学习智能体学习，深度强化学习智能体利用存储数据更新参数；

6、步骤5：判断深度强化学习智能体学习结果是否满足阈值条件，满足阈值后学习结束，使用学习完成的深度强化学习智能体进行不同任务下的车辆调度；

7、步骤6：由深度强化学习智能体输出当前任务下派出的车辆数目和行车路径，反馈给车辆调度中心系统数据库，并在车辆调度中心看板中展现当前任务下车辆行车路径。看板中还可以实时展现每辆车的当前位置、车辆运行状态等。

8、具体的，步骤1所述车辆类型包括：重型保障车、中型保障车、轻型保障车和微型保障车，车辆的数量是这四种类型车辆分别具有的数量。

9、步骤1所述历史任务信息为一个月内车辆运维调度中心接受到的所有任务；任务类型有静态任务和动态任务，静态任务是位置和需求已知，动态任务的位置和需求是未知的，动态任务的产生可能改变原先行车路线或增加新车辆；每种任务下派出车辆的数目包括每种车辆类型的车辆数目。

10、步骤2根据步骤1提取一个月内车辆运维调度中心所接受到的任务，每一天作为一个车辆调度周期，给每一天车辆调度中心接受到的静态任务从1到n进行编号；所述动态任务随机出现，当作静态任务的扰动，动态任务划分到当前正在执行的静态任务中；动作变量设置为一个车辆调度周期内该任务下派出的车辆数目和车辆类型；所述奖励函数rn＝c/103，c表示当前任务下所有车辆行驶成本，由派出的所有车辆行车总距离和每公里成本的乘积累加计算得到，奖励函数rn是当前任务n下的成本c的一个缩小量。

11、具体的，步骤3中车辆集合为m＝[1,2,…,m]，1～m表示车辆编号，m是车辆总数，某一静态任务下子订单集合是[u1,…,up]，u1～up表示每个子订单中车辆的任务地点的编号，则对当前任务进行编码，然后求解该静态任务下的所有车辆行驶成本；

12、编码为使用子订单编号和m-1个0组成，编码后的个体表示为[u1,u2,…,ul,…,up+m-1]，其中ul表示子订单编号或0，l＝1,2,…,p+m-1；

13、步骤3.1、初始种群的生成：

14、

15、其中a(j)表示个体序号，rand(p)表示从p个任务地点编号中随机挑出的整数，u1是对子订单重新排序的集合；

16、

17、a(i)表示0在初始种群个体中的序号，rand(p+m-1)表示生成1到p+m-1的随机整数，产生的所有a(i)均不相同；a(q)表示集合m＝[1,2,…,m]中车辆的序号，rand(m)表示生成1到m的随机整数，产生的所有a(q)均不相同；为区分不同车辆，使用0a(q)代表不同车辆对应的0；然后把m-1个0a(q)与u1合并，当0a(q)的序号与a(j)相等时，则u1中个体序号后移一位，合并后即为初始种群u；

18、步骤3.2、种群个体的变异：

19、

20、其中，unew是更新后当前任务下最优解，λ是个体更新参数，ubest是当前迭代次数下成本最低的历史最优解，ur1、ur2和ur3别是从初始种群中随机选择的个体，kmax是最大迭代次数，k当前迭代次数，f是变异参数，随迭代次数变化；在变异计算时0a(q)按数字0计算，当不同0的下标a(q)不同时，将不同0的下标全替换为载重量较小的车对应的下标；

21、根据unew计算行驶成本方法如下：对unew进行解码，将被0a(q)隔开的非0序列作为解码后的车辆行驶路线，非0序列的数目表示派出的车辆数，非0序列前相邻的0a(q)的下标表示派出的车辆编号；根据解码结果可得每辆车对应的类型和行驶距离，进而计算总成本；

22、达到最大迭代次数后，根据输出的unew计算该任务下所有车辆行驶成本，然后根据rn＝c/103计算奖励函数。

23、具体的，步骤4存储用于深度强化学习智能体学习的数据包括：一个车辆运维调度周期内当前任务对应的状态变量sn，动作变量an，奖励函数rn，下一任务对应的的状态变量sn+1，n＝1,2,…，n；以(sn,an,rn,sn+1)作为一组存储数据，存储到深度强化学习智能体的经验池。

24、具体的，步骤4中深度强化学习智能体利用存储数据更新参数过程如下：每次训练结果的优良通过评价网络输出的q(sn,an)值进行评价，q(·)是评价函数；为了输出q(sn,an)的最大值，即maxq(sn,an)值，在不断学习迭代过程中需要从经验池中采样数据计算损失函数更新智能体神经网络参数；以一天作为一个车辆调度周期，算法更新公式和网络参数具体如下：

25、步骤4.1、评价网络输出e是期望，γ是人为设置的折扣因子；目标评价网络的输出qn′(sn+1,a't)，a't由sn+1输入到智能体神经网络中得到；

26、步骤4.2、计算损失函数：l(θq)＝e((rn+γmaxqn′(sn+1,at')-qn(sn,an))2)，其中θq是评价网络参数；计算损失函数反向传播，更新评价网络参数；

27、通过以上参数不断更新直到训练截止迭代出maxq(sn,an)，即完成对深度强化学习智能体参数的更新。

28、步骤5中，由于不同任务下派出的车辆数目、车辆类型和车辆行驶距离上的差异，使每本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的特种保障车辆运维调度方法，其特征是，包括以下步骤：

2.如权利要求1所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤1中，所述车辆类型包括：重型保障车、中型保障车、轻型保障车和微型保障车，车辆的数量是这四种类型车辆分别具有的数量。

3.如权利要求1所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤1中，所述历史任务信息为一个月内车辆调度中心接受到的所有任务；任务类型有静态任务和动态任务，静态任务的位置和需求是已知的，动态任务的位置和需求是未知的，动态任务的产生可能改变原先行车路线或增加新车辆；每种任务下派出车辆的数目包括每种车辆类型的车辆数目；所述服务范围是指任务地点距离车辆调度中心的最远距离，超过该距离则不接收任务。

4.如权利要求3所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤2中，根据步骤1提取一个月内车辆运维调度中心所接受到的任务，每一天作为一个车辆调度周期，给每一天车辆运维调度中心接受到的静态任务从1到N进行编号；所述动态任务随机出现，当作静态任务的扰动，动态任

5.如权利要求4所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤3包括：设车辆集合为M＝[1,2,…,m]，1～m表示车辆编号，一静态任务下子订单集合是[u1,…,up]，u1～up表示每个子订单中车辆的任务地点的编号，则对当前任务进行编码，然后求解该静态任务下的所有车辆行驶成本；

6.如权利要求5所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤4中，存储用于深度强化学习智能体学习的数据包括：一个车辆调度周期内当前任务对应的状态变量Sn、动作变量An、奖励函数Rn、下一任务对应的的状态变量Sn+1，n＝1,2,…，N；以(Sn,An,Rn,Sn+1)作为一组存储数据，存储到深度强化学习智能体的经验池；状态变量Sn对应步骤3中对当前任务的编码，动作变量An对应步骤3中输出的unew。

7.如权利要求6所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤4中，深度强化学习智能体利用存储数据更新参数过程如下：每次训练结果的优良通过评价网络输出的Q(Sn,An)值进行评价，Q(·)是评价函数；为了输出Q(Sn,An)的最大值，即maxQ(Sn,An)值，在不断学习迭代过程中需要从经验池中采样数据计算损失函数更新智能体神经网络参数；以一天作为一个车辆调度周期，算法更新公式和网络参数具体如下：

8.如权利要求1所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤5中，由于不同任务下派出的车辆数目、车辆类型和车辆行驶距离上的差异，使每个任务下车辆行驶总成本不同；为了让阈值设置更合理，对任务进行类型划分，划分方式如下：

9.如权利要求1所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤6中车辆运维调度中心看板中展现的内容还包括每辆车的当前位置、车辆运行状态。

...

【技术特征摘要】

1.一种基于深度强化学习的特种保障车辆运维调度方法，其特征是，包括以下步骤：

4.如权利要求3所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤2中，根据步骤1提取一个月内车辆运维调度中心所接受到的任务，每一天作为一个车辆调度周期，给每一天车辆运维调度中心接受到的静态任务从1到n进行编号；所述动态任务随机出现，当作静态任务的扰动，动态任务划分到当前正在执行的静态任务中；动作变量设置为一个车辆调度周期内该任务下派出的车辆数目和车辆类型；所述奖励函数rn＝c/103，c表示当前任务下所有车辆行驶成本，由派出的所有车辆行车总距离和每公里成本的乘积累加计算得到，奖励函数rn是当前任务n下的成本c的一个缩小量。

5.如权利要求4所述的基于深度强化学习的特种保障车辆运维调度方法，其特征是，步骤3包括：设车辆集合为m＝[1,2,…,m]，1～m表示车辆编号，一静态任务...

【专利技术属性】
技术研发人员：柳月，鲍珂，李孟伟，
申请(专利权)人：中国北方车辆研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人