本发明专利技术公开了基于超参数网络权重分配深度强化学习的车辆调度方法,包括:获取多智能体的调度区域,调度区域包括局部区域和全局区域,其中智能体为被调度的车辆;基于局部区域,得到多智能体的局部状态,基于局部状态,通过策略网络,得到当前的调度策略;基于全局区域,得到多智能体的全局状态,基于全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态
【技术实现步骤摘要】
基于超参数网络权重分配深度强化学习的车辆调度方法
[0001]本专利技术属于共享交通领域,特别是涉及一种基于超参数网络权重分配深度强化学习的车辆调度方法。
技术介绍
[0002]当某市中心的下班高峰时间段,该区域订单的需求量远大于该区域的空闲车辆,那么问题就演变成该如何将可用车辆提前进行调度,来满足当前的乘客需求,然而,从长远来看,可能在下一时间段由于天气等因素导致该区域的需求量较小,这就造成了车辆未来收益较少和资源的浪费。
[0003]目前车辆调度的方法主要有三类,包括:基于组合优化的方法、基于单智能体强化学术方法和基于多智能体深度强化学习的方法。但是,现有技术中,没有将整体收益和订单响应率以及车队重定位数量进行综合考虑,比如高价订单匹配的车辆可以在单个调度阶段得到很好的收入;但是可能在不久的将来该车队很可能大部分车辆没有得到合理利用,这将损害订单响应率和最大化累积司机收益的整体效益。
技术实现思路
[0004]本专利技术的目的是提供一种基于超参数网络权重分配深度强化学习的车辆调度方法,以解决上述现有技术存在的问题。
[0005]为实现上述目的,本专利技术提供了一种基于超参数网络权重分配深度强化学习的车辆调度方法,包括:
[0006]获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;
[0007]基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;
[0008]基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,得到全局状态价值;通过评价网络,得到多智能体的状态
‑
联合动作价值;
[0009]基于所述状态价值与所述状态
‑
联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度。
[0010]优选地,获取多智能体的调度区域的过程包括:
[0011]划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为网约车调度区域;
[0012]基于所述六边形网格区域的中心坐标,得到邻居区域。
[0013]优选地,得到当前调度策略的过程包括:
[0014]基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:订单需求数和车辆数以及网格编号;
[0015]将所述局部状态输入至策略网络,得到当前调度策略。
[0016]优选地,将所述局部状态输入至策略网络的过程包括:
[0017]获取策略网络,将所述订单需求数和车辆数输入至所述策略网络,得到观察状态与动作参数的映射关系,基于所述映射关系,得到当前调度策略。
[0018]优选地,得到全局状态价值的过程包括:
[0019]基于所述全局区域,得到多智能体的全局状态,其中所述全局状态包括:订单需求数、车辆数以及网格编号;
[0020]基于所述全局状态,通过价值网络的损失函数,得到全局状态价值。
[0021]优选地,得到多智能体的状态
‑
联合动作价值的过程包括:
[0022]基于所述全局状态,通过评价网络,将所述当前调度策略和超参数进行组合计算,得到多智能体的状态
‑
联合动作价值。
[0023]优选地,得到新的目标函数的过程包括:
[0024]获取损失函数的权重常数,基于所述权重常数,将所述状态价值与所述状态
‑
联合动作价值进行组合,得到总的目标损失函数,所述总的目标损失函数为新的目标函数。
[0025]优选地,优化所述调度策略的过程包括:
[0026]基于反向传播算法,对所述调度策略进行权重分配;基于分配结果和所述目标函数,优化所述当前调度策略,直至输出的误差减小至期望值,优化过程结束。
[0027]本专利技术的技术效果为:
[0028]本专利技术提出了一种基于超参数网络权重分配深度强化学习的车队调度方法,获取多智能体的调度区域,基于局部区域,得到多智能体的局部状态,通过策略网络,得到当前调度策略;基于全局区域,得到多智能体的全局状态,通过价值网络,基于全局状态,得到全局状态价值;通过评价网络,得到多智能体的状态
‑
联合动作价值;将状态价值与状态
‑
联合动作价值进行组合,得到新的目标函数;通过目标函数,优化调度策略,最终实现车辆调度。
[0029]本专利技术提供的调度方法,有利于地解决复杂的动态环境下,大规模车辆的短期和长期调度优化问题。同时此方法不是每个时间段的最佳策略,而是整个调度过程的整体优化方法,考虑了未来时间段的供需变化以及调度决策对下一时间段的供需的影响。本专利技术提出的动态优化调度策略,可提高调度运营效率;提高订单响应率,增加司机和平台累积收益,减少调度车辆,减少某些区域内过高堆积的闲置车辆数目;减少共享资源的浪费,改善由大量闲置车辆的堆叠所造成的城市环境的现象。
附图说明
[0030]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0031]图1为本专利技术实施例中的方法流程图;
[0032]图2为本专利技术实施例中的调度过程图;
[0033]图3为本专利技术实施例中的时空调度图;
[0034]图4为本专利技术实施例中的CADPG模型结构图;
[0035]图5为本专利技术实施例中的模拟订单数量示意图;
[0036]图6为本专利技术实施例中的采用基于权重分配深度强化学习与四种基线方法的订单响应率和累积司机收益对比结果图;
[0037]图7为本专利技术实施例中的采用基于权重分配深度强化学习与四种基线方法的车辆调度数对比结果图。
具体实施方式
[0038]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0039]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0040]实施例一
[0041]如图1
‑
4所示,本实施例中提供一种基于超参数网络权重分配深度强化学习的车辆调度方法,包括以下步骤:
[0042]获取多智能体的调度区域,调度区域包括局部区域和全局区域;其中智能体为被调度的车辆;
[0043]基于局部区域,得到多智能体的局部状态,基于局部状态,通过策略网络,得到当前调度策略;
[0044]基于全局区域,得到多智能体的全局状态,基于全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态
‑
联合动作价值;
[0045]基于状态价值与状态
‑
联合动作价值,得到新的目标函数;基于本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,包括以下步骤:获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态
‑
联合动作价值;基于所述状态价值与所述状态
‑
联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度。2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,获取多智能体的调度区域的过程包括:划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为调度区域;基于所述六边形网格区域的中心坐标,得到邻居区域。3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,得到当前调度策略的过程包括:基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号;将所述局部状态输入至策略网络,得到当前调度策略。4.根据权利要求3所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,将所述局部状态输入至策略网络的过程包括:获取策略网络,将...
【专利技术属性】
技术研发人员:黄晓辉,张雄,杨凯铭,易虎,
申请(专利权)人:华东交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。