基于超参数网络权重分配深度强化学习的车辆调度方法技术

技术编号：36683005 阅读：25 留言：0更新日期：2023-02-27 19:42

本发明专利技术公开了基于超参数网络权重分配深度强化学习的车辆调度方法，包括：获取多智能体的调度区域，调度区域包括局部区域和全局区域，其中智能体为被调度的车辆；基于局部区域，得到多智能体的局部状态，基于局部状态，通过策略网络，得到当前的调度策略；基于全局区域，得到多智能体的全局状态，基于全局状态，通过价值网络，得到全局状态价值；通过评价网络，得到多智能体的状态

全部详细技术资料下载

【技术实现步骤摘要】
基于超参数网络权重分配深度强化学习的车辆调度方法

[0001]本专利技术属于共享交通领域，特别是涉及一种基于超参数网络权重分配深度强化学习的车辆调度方法。

技术介绍

[0002]当某市中心的下班高峰时间段，该区域订单的需求量远大于该区域的空闲车辆，那么问题就演变成该如何将可用车辆提前进行调度，来满足当前的乘客需求，然而，从长远来看，可能在下一时间段由于天气等因素导致该区域的需求量较小，这就造成了车辆未来收益较少和资源的浪费。
[0003]目前车辆调度的方法主要有三类，包括：基于组合优化的方法、基于单智能体强化学术方法和基于多智能体深度强化学习的方法。但是，现有技术中，没有将整体收益和订单响应率以及车队重定位数量进行综合考虑，比如高价订单匹配的车辆可以在单个调度阶段得到很好的收入；但是可能在不久的将来该车队很可能大部分车辆没有得到合理利用，这将损害订单响应率和最大化累积司机收益的整体效益。

技术实现思路

[0004]本专利技术的目的是提供一种基于超参数网络权重分配深度强化学习的车辆调度方法，以解决上述现有技术存在的问题。
[0005]为实现上述目的，本专利技术提供了一种基于超参数网络权重分配深度强化学习的车辆调度方法，包括：
[0006]获取多智能体的调度区域，所述调度区域包括局部区域和全局区域；其中所述智能体为被调度的车辆；
[0007]基于所述局部区域，得到多智能体的局部状态，基于所述局部状态，通过策略网络，得到当前调度策略；
[0008]基于所述全局区域，得...

【技术保护点】

【技术特征摘要】
1.基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，包括以下步骤：获取多智能体的调度区域，所述调度区域包括局部区域和全局区域；其中所述智能体为被调度的车辆；基于所述局部区域，得到多智能体的局部状态，基于所述局部状态，通过策略网络，得到当前调度策略；基于所述全局区域，得到多智能体的全局状态，基于所述全局状态，通过价值网络，得到全局状态价值；通过评价网络，得到多智能体的状态
‑
联合动作价值；基于所述状态价值与所述状态
‑
联合动作价值，得到新的目标函数；基于所述目标函数，优化所述调度策略，最终实现车辆调度。2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，获取多智能体的调度区域的过程包括：划分地图得到智能体的六边形网格区域，其中所述六边形网格区域为调度区域；基于所述六边形网格区域的中心坐标，得到邻居区域。3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，得到当前调度策略的过程包括：基于所述局部区域，得到多智能体的局部状态，其中所述局部状态包括：自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号；将所述局部状态输入至策略网络，得到当前调度策略。4.根据权利要求3所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，将所述局部状态输入至策略网络的过程包括：获取策略网络，将...

【专利技术属性】
技术研发人员：黄晓辉，张雄，杨凯铭，易虎，
申请(专利权)人：华东交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人