本发明专利技术涉及车辆调度技术领域,公开了一种出租车调度方法,包括以下步骤:将出租车调度问题构建为一个马尔可夫决策元组;构建网格地图;预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,计算区域的供需特征,形成需求指数与区域标记;相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;验证上述策略,形成最终模型。终模型。终模型。
【技术实现步骤摘要】
一种出租车调度方法
[0001]本专利技术涉及车辆调度
,特别是涉及一种基于预分配层次强化学习的出租车调度方法。
技术介绍
[0002]拼车系统广泛部署在许多大城市中,其通过智能算法实现乘客预订和调度附近可用的车辆,显著改善了日常出行。尽管这些平台广受欢迎,但仍面临着需求供给不平衡的巨大挑战。例如,高人口密度的热区域通常缺乏可用车辆,导致许多乘车请求无法得到满足;而低需求的冷区域可能有过剩的闲置车辆,等待可能不会到来的乘车请求。这些需求供给不匹配可能会导致乘客满意度降低,也会减少拼车平台和司机的利益。
[0003]基于组合优化算法,如贪婪算法和启发式算法等,首先被提出并用于出租车车队的调度管理,然而,这些算法大多集中在短期重新定位,在长期规划方面有较低的效率,忽略了需求的变化和不确定性的影响。因此,需要一种能够考虑长期目标和需求预测的方式。
[0004]目前,基于强化学习的算法已被应用于解决出租车车队调度问题。这些算法将每个可用的车辆视为一个自主智能体,利用神经网络为每个智能体学习调度策略,能够在提高订单响应率和平台收入方面取得一定的效果。然而,基于传统强化学习的算法仍然面临着很多的技术挑战。首先,它们需要定义智能体的状态和动作空间,并协调智能体之间的协作,因为车队管理策略需要在城市范围内匹配数以万计的车辆和出行请求。其次,它们还必须能够准确预测潜在的乘客需求,这需要有效地整合预测模型和车队调度模型。第三,它们的最终挑战是如何基于预测结果生成长期的车队调度策略,以实现平台的可持续发展。
技术实现思路
[0005]为解决上述技术问题,本专利技术提供一种出租车调度方法,保证出租车系统能更高效的分配车辆资源。
[0006]本专利技术解决其技术问题所采用的技术方案是:一种出租车调度方法,包括以下步骤:S1,将出租车调度问题构建为一个马尔可夫决策元组;其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体;S2,构建网格地图;其中,每个网格代表一个区域,每个网格内可以拥有多个订单与司机;S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算
的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;S7,验证上述策略,并形成最终模型。
[0007]优选地,所述马尔可夫决策元组G=(N,S,A,P,R,γ);其中N是工人智能体的数量,S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子。
[0008]优选地,所述预测者智能体的奖励函数为,且:;其中,和分别表示t+1时刻时全城实际订单和预测订单的分布;表示Kullback
‑
Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距;所述工人智能体的奖励函数为,且:;其中,代表网格中的车辆所获得的直接订单匹配奖励收入;网格中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励。
[0009]优选地,构建所述网格地图,将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID ,并拥有多个同质化的空闲车辆;且所述六边形格网的边缘大小设置为2~3公里。
[0010]优选地,环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求;其中时间步t
‑
n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势;最近n天时间步t+1的基于天的历史订单分布被选为输入的另一部分,以研究不同天之间旅行需求的变化趋势。
[0011]优选地,所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块,所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势,所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响。
[0012]优选地,基于分钟的历史订单分布的潜在需求为,;基于天数的历史订单分布的潜在需求为,
。
[0013]优选地,所述基于预分配规则计算区域的供需特征,通过匹配潜在订单和潜在车辆来计算网格$i$的需求指数,其中表示网格i的本地潜在需求,表示时刻t+1网格i的本地潜在车辆分布;所述需求指数可以表示为:其中需求指数代表该网格的需求和供应之间的差异,每个网格都根据需求指数分配了一个区域标记,指示它是热区、冷区或平衡区,根据需求指数,我们可以知道网格i属于哪种类型的区域;因此,区域标记可以用数字表示为:。
[0014]优选地,所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合,从而计算出特定于工人智能体i的局部需求指数和局部区域标记;同时利用局部状态构建一个超参数自注意力网络,其为:;利用所述超参数自注意力网络计算得出工人智能体i的行为
‑
状态值函数,其为:。
[0015]优选地,验证上述策略,并形成最终模型包括以下步骤:S71:计算奖励,根据模型计算的调度策略,调度所有的出租车前往目标区域并匹配订单,计算此次调度决策所带来的收益;S72:训练模型,存储一天内所有的调度的过程后,采用Huber损失函数学习这些过程并更新智能体网络的参数;Huber损失函数为:;其中$,为目标网络中的参数;
S73:模型评估与实验验证;训练若干回合后,采用在出租车调度场景中的两个指标ADI和ORR,作为评估算法优缺点的标准;ADI表示在一个回合中所有已完成订单的收入,可以在基于网格的模拟器中表示为:;其中,表示在时间步t中服务于网格i的订单价值之和;ORR是一个回合中所有时间步骤中订单响应率的加权平均值,其为:;其中,表示在时间步t中网格i中已服务的订单数量,表示在时间步$t$中网格i中所有订单数量;选取最优的模型权重后,在数据集上进行8~15个回合的测试,取所有结果的平均值作为模型的最终结果。
[0016]本专利技术实施例的一种出租车调度方法,与现有技术相比,其有益效果在于:本专利技术利用层次强化学习将出租车调度分解为多个子任务,并使用视图时空卷积注意力模块与超参数自注意力模块联合决策,使得出租车系统能更高效的分配车辆资源。
附图说明
[0017]图1为本专利技术的出租车调度方法的流程图。
[0018]图2为本专利技术用于预测需求的订单时间特征分类的结构示意图。
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种出租车调度方法,其特征在于:包括以下步骤:S1,将出租车调度问题构建为一个马尔可夫决策元组;其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体;S2,构建网格地图;其中,每个网格代表一个区域,每个网格内可以拥有多个订单与司机;S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;S7,验证上述策略,并形成最终模型。2.如权利要求1所述的出租车调度方法,其特征在于:所述马尔可夫决策元组 G=(N,S,A,P,R,γ);其中N是工人智能体的数量,S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子。3.如权利要求2所述的出租车调度方法,其特征在于:所述预测者智能体的奖励函数为,且:,其中,和分别表示t+1时刻时全城实际订单和预测订单的分布;表示Kullback
‑
Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距;所述工人智能体的奖励函数为,且:;其中,代表网格i中的车辆所获得的直接订单匹配奖励收入;网格i中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励。4.如权利要求1所述的出租车调度方法,其特征在于:构建所述网格地图,将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID ,并拥有多个同质化的空闲车辆;且所述六边形格网的边缘大小设置为2~3公里。5.如权利要求1所述的出租车调度方法,其特征在于:环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求;其中时间步t
‑
n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势;
最近n天时间步t+1的基于天的历史订单分布被选为...
【专利技术属性】
技术研发人员:黄晓辉,凌嘉壕,成学博,许嘉杨,祝显红,
申请(专利权)人:华东交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。