用于驾驶员奖酬的强化学习方法:用于驾驶员-系统互动的生成性对抗网络技术方案

技术编号:32963781 阅读:10 留言:0更新日期:2022-04-09 10:59
描述了一种确定政策以防止流逝驾驶员的系统和方法。该系统和方法创建了诸如在运输叫车系统中向驾驶员提供的优惠券的奖酬以及驾驶员响应于奖酬的对应状态的虚拟轨迹。从奖酬政策、混杂奖酬政策和奖酬对象政策中创建联合政策模拟器,以生成驾驶员响应不同奖酬的模拟行动。驾驶员模拟的行动的奖励由判别器确定。基于由联合政策模拟器和判别器生成的虚拟轨迹,通过强化学习来优化用于防止流逝驾驶员的奖酬政策。奖酬政策。奖酬政策。

【技术实现步骤摘要】
【国外来华专利技术】用于驾驶员奖酬的强化学习方法:用于驾驶员

系统互动的生成性对抗网络


[0001]本申请与运输叫车管理服务相关联。特别是,本申请针对的是一种在运输叫车系统中以电子方式向驾驶员提供奖酬的系统。

技术介绍

[0002]最近,运输叫车系统已经变得很普遍,该运输叫车系统基于经由带有网络通信的电子设备上的应用程序来匹配驾驶员和乘客的模式。此类运输叫车服务的成功取决于吸引乘客和留住驾驶员。因此,运输叫车公司已经设立了跟踪乘客和驾驶员的系统,以便对如何最好地留住这两者进行分析。此类公司发现预测驾驶员模式是有利的,因此对驾驶员制定了有针对性的奖酬,以继续为运输叫车服务驾驶。
[0003]运输叫车服务依赖于有足够数量的符合运输服务平台的基于网络的应用的驾驶员注册,以满足乘客的需求。一个问题是所谓的流逝驾驶员,即参与度下降的驾驶员,诸如与以前的驾驶频率或时间长度的高峰相比,驾驶频率或时间长度下降。根据驾驶员的生命周期演化模型,流逝驾驶员数量在所有活跃的驾驶员中占了不可忽视的比例。因此,流逝驾驶员干预项目的目标是有效地奖酬流逝驾驶员,以增加他们的驾驶频率。这种奖酬的一个实施例是个性化的优惠券,奖励流逝驾驶员增加他们的驾驶频率。奖酬政策或策略可以使用机器学习、强化学习、数据挖掘和其他人工智能技术来制定,以刺激驾驶员的积极性。奖酬优惠券通常包括设定的金额,一旦驾驶员在设定的时间段中完成了特定数量的旅行,就可以兑现。
[0004]由于强化学习的多功能性,许多基于决策过程的任务可以应用强化学习方法来优化策略,如选择哪些驾驶员提供优惠券。可以收集运输叫车应用系统中积累的普通历史互动数据。然而,目前的强化学习算法在很大程度上依赖于大规模抽样,由于抽样效率低,成本高,在驾驶员和乘客的真实物理世界中会受到严重的制约。这项任务的关键目的是利用只有历史数据的强化方法来优化策略。
[0005]基于上述使用强化学习方法只用历史数据优化策略的目标,挑战在于历史数据是静态的。静态数据实际上是在乘客驾驶员互动的历史中执行的某种奖酬政策生成的。静态数据不能用来直接评估从初始政策改进后的不同政策,而这正是强化学习过程的关键步骤。
[0006]一般来说,使用历史数据来训练奖酬政策主要集中在模仿学习上。传统的模仿学习方法通常有两种,行为克隆和逆向强化学习。行为克隆将历史数据格式化为有监督的学习样本,使用有监督的机器学习来推导策略。逆向强化学习是基于历史数据对应于最大奖励的虚假设。迭代地,从数据中推断出奖励函数,然后进行强化学习,训练神经网络来执行奖酬政策。
[0007]上述方法是基于这样的虚假设:历史数据是由最优策略生成的,同时,最终学到的策略只是历史策略的近似值。不幸的是,历史策略在干预以防止流逝驾驶员的任务中并不
是最优的。从直观上看,经过训练的策略很可能再次选择历史上执行过的低效甚至无用的干预行动,这对于防止流逝驾驶员绝对是无意义的。因此,以前的模仿学习方法不能直接用于学习改变驾驶员行为的有效奖酬政策。最后但并非最不重要的是,驾驶员干预的场景是动态的,而且更加复杂。驾驶员的活动不仅受到自身的影响,而且还受到一些外部干扰因素的影响。这种外部干扰因素是影响驾驶员决策和表现的外部环境。这种因素可能包括竞争性的运输服务,天气,或高需求时间,诸如节假日。这些外部干扰因素可能对驾驶员政策或驾驶员行为生成影响。由于这些因素,确定一种模拟驾驶员互动的算法,用于驾驶员、奖酬政策和竞争对手的直接互动和优化,是相当具有挑战性的。因此,有必要使用机器学习来确定基于现有历史数据的最优驾驶员奖酬政策。

技术实现思路

[0008]所公开的一个实施例是一种运输叫车系统,包括多个客户端设备,每个客户端设备与网络通信,并运行应用程序以参与运输服务。该系统包括多个运输设备,每个运输设备与多个驾驶员中的一个相关联,并运行应用程序以提供运输服务。数据库存储每个驾驶员的状态和行动数据。状态数据与由驾驶员提供的运输服务相关联,行动数据与驾驶员接收奖酬相关联。奖酬系统经由网络与该多个运输设备和客户端设备耦合。奖酬系统包括联合政策模型生成器。联合政策模型生成器可操作以构建该多个驾驶员中的各驾驶员在预设的时间段中的历史轨迹。历史轨迹包括用于预设时间段的状态和行动数据。联合政策模型生成器可操作以生成奖酬政策,其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬。联合政策模型生成器可操作以生成混杂奖酬政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬以及输出用于驾驶员的另一个奖酬。联合政策模型生成器可操作以生成奖酬对象政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动。奖酬系统包括判别器,其输入来自政策生成器的用于驾驶员的历史轨迹和模拟行动。判别器的输出是与每个模拟行动相对应的奖励。奖酬系统包括强化学习系统,该强化学习系统基于奖励输出,从模拟行动中提供优化的奖酬政策。奖酬系统包括奖酬服务器,该奖酬服务器根据优化的奖酬政策,向至少一些运输设备传达选定的奖酬。
[0009]另一个公开的实施例是一种在运输叫车系统中奖酬驾驶员的方法。运输叫车系统包括多个客户端设备,其中,每个客户端设备与网络通信,并运行应用程序以参与运输服务。运输叫车系统包括多个运输设备。每个运输设备与多个驾驶员中的一个相关联,并运行应用程序以提供运输服务。每个驾驶员的状态和行动数据都被储存在与网络耦合的数据库中。状态数据与由驾驶员提供的运输服务相关联,行动数据与驾驶员接收奖酬相关联。该多个驾驶员中的各驾驶员的历史轨迹是在预设的时间段中形成的,其中,历史轨迹包括用于预设时间段的状态和行动数据。生成奖酬政策,其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬。生成混杂式奖酬政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬以及输出用于驾驶员的另一个奖酬。生成奖酬对象政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动。由判别器确定与每个模拟行动相对应的奖励,该判别器输入历史轨迹和驾驶员模拟行动。经由强化学习,基于奖励输出,从模拟行动中提供优化的奖酬政策。根据来自奖酬服务器的优化的奖酬政策,通过网络向至少一些运输设备传达选定的奖酬。
[0010]上述总结并不打算代表本公开内容的每个实施方式或每个方面。相反,上述总结只是提供本文所阐述的一些新颖方面和特点的实施例。上述特征和优点,以及本公开的其他特征和优点,在与附图和所附权利要求书耦合系时,将很容易从以下对实施本专利技术的代表性实施例和模式的详细描述中看出。
附图说明
[0011]在附图中,通过举例而非限制的方式展示本专利技术的实施方式,其中类似的附图标记代表类似的元素,并且在其中:
[0012]图1展示运输叫车环境的框图,该运输叫车环境包括在驾驶员之间智能分配奖励;
[0013]图2展示智能引擎的框图,以确定用于奖酬驾驶员以防止流逝驾驶员的最优政策;
[0014]图3展示基于模拟器来生成和优化驾驶员奖酬政策的流程图;
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种运输叫车系统,包括:多个客户端设备,每个客户端设备与网络通信,并运行应用程序以参与运输服务;多个运输设备,每个运输设备与多个驾驶员中的一个相关联,并运行应用程序以提供运输服务;存储用于每个驾驶员的状态和行动数据的数据库,状态数据与由驾驶员提供的运输服务相关联,行动数据与驾驶员获得奖酬相关联;经由网络与所述多个运输设备和客户端设备耦合的奖酬系统,奖酬系统包括:联合政策模型生成器,其可操作以:构建所述多个驾驶员中的各驾驶员在预设的时间段中的历史轨迹,其中,历史轨迹包括用于预设时间段的状态和行动数据;生成奖酬政策,其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬;生成混杂式奖酬政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬以及输出用于驾驶员的另一个奖酬;生成奖酬对象政策,其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动;判别器,其输入来自政策生成器的用于驾驶员的历史轨迹和模拟行动,判别器的输出是与每个模拟行动相对应的奖励;强化学习系统,其基于奖励输出,从模拟行动中提供优化的奖酬政策;以及奖酬服务器,其根据优化的奖酬政策向至少一些运输设备传达选定的奖酬。2.根据权利要求1所述的运输叫车系统,其中,奖酬系统包括驾驶员价值引擎,所述驾驶员价值引擎可操作以基于数据库中的行动和状态来输出驾驶员的排名优先级。3.根据权利要求2所述的运输叫车系统,其中,奖酬服务器可操作以基于排名优先级和优化的奖酬政策来向驾驶员提供奖酬。4.根据权利要求3所述的运输叫车系统,其中,奖酬服务器可操作以在一时间段中分派奖酬预算,并且其中,奖酬在所述时间段中受到所述奖酬预算的限制。5.根据权利要求4所述的运输叫车系统,其中,奖酬预算在所述时间段中被平均分派。6.根据权利要求4所述的运输叫车系统,其中,奖酬预算在所述时间段中被分配为有利于特定时间段。7.根据权利要求1所述的运输叫车系统,其中,联合政策生成器是神经网络。8.根据权利要求1所述的运输叫车系统,其中,选定的奖酬是允许驾驶员在提供特定数量的运输服务后兑现价值的优惠券。9.根据权利要求1所述的运输叫车系统,其中,强化学习系统根据策略梯度方法进行操作。10.根据权利要求1的运输叫车系统,其中,历史...

【专利技术属性】
技术研发人员:尚文杰李卿阳秦志伟孟一平俞扬叶杰平
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1