用于驾驶员奖酬的强化学习方法：用于驾驶员-系统互动的生成性对抗网络技术方案

技术编号：32963781 阅读：10 留言：0更新日期：2022-04-09 10:59

描述了一种确定政策以防止流逝驾驶员的系统和方法。该系统和方法创建了诸如在运输叫车系统中向驾驶员提供的优惠券的奖酬以及驾驶员响应于奖酬的对应状态的虚拟轨迹。从奖酬政策、混杂奖酬政策和奖酬对象政策中创建联合政策模拟器，以生成驾驶员响应不同奖酬的模拟行动。驾驶员模拟的行动的奖励由判别器确定。基于由联合政策模拟器和判别器生成的虚拟轨迹，通过强化学习来优化用于防止流逝驾驶员的奖酬政策。奖酬政策。奖酬政策。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于驾驶员奖酬的强化学习方法：用于驾驶员
‑
系统互动的生成性对抗网络

[0001]本申请与运输叫车管理服务相关联。特别是，本申请针对的是一种在运输叫车系统中以电子方式向驾驶员提供奖酬的系统。

技术介绍

[0002]最近，运输叫车系统已经变得很普遍，该运输叫车系统基于经由带有网络通信的电子设备上的应用程序来匹配驾驶员和乘客的模式。此类运输叫车服务的成功取决于吸引乘客和留住驾驶员。因此，运输叫车公司已经设立了跟踪乘客和驾驶员的系统，以便对如何最好地留住这两者进行分析。此类公司发现预测驾驶员模式是有利的，因此对驾驶员制定了有针对性的奖酬，以继续为运输叫车服务驾驶。
[0003]运输叫车服务依赖于有足够数量的符合运输服务平台的基于网络的应用的驾驶员注册，以满足乘客的需求。一个问题是所谓的流逝驾驶员，即参与度下降的驾驶员，诸如与以前的驾驶频率或时间长度的高峰相比，驾驶频率或时间长度下降。根据驾驶员的生命周期演化模型，流逝驾驶员数量在所有活跃的驾驶员中占了不可忽视的比例。因此，流逝驾驶员干预项目的目标是有效地奖酬流逝驾驶员，以增加他们的驾驶频率。这种奖酬的一个实施例是个性化的优惠券，奖励流逝驾驶员增加他们的驾驶频率。奖酬政策或策略可以使用机器学习、强化学习、数据挖掘和其他人工智能技术来制定，以刺激驾驶员的积极性。奖酬优惠券通常包括设定的金额，一旦驾驶员在设定的时间段中完成了特定数量的旅行，就可以兑现。
[0004]由于强化学习的多功能性，许多基于决策过程的任务可以应用强化学习方法来优化策略，如选...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种运输叫车系统，包括：多个客户端设备，每个客户端设备与网络通信，并运行应用程序以参与运输服务；多个运输设备，每个运输设备与多个驾驶员中的一个相关联，并运行应用程序以提供运输服务；存储用于每个驾驶员的状态和行动数据的数据库，状态数据与由驾驶员提供的运输服务相关联，行动数据与驾驶员获得奖酬相关联；经由网络与所述多个运输设备和客户端设备耦合的奖酬系统，奖酬系统包括：联合政策模型生成器，其可操作以：构建所述多个驾驶员中的各驾驶员在预设的时间段中的历史轨迹，其中，历史轨迹包括用于预设时间段的状态和行动数据；生成奖酬政策，其输入驾驶员的历史轨迹以及输出用于驾驶员的奖酬；生成混杂式奖酬政策，其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬以及输出用于驾驶员的另一个奖酬；生成奖酬对象政策，其输入驾驶员的历史轨迹、输入用于驾驶员的奖酬、输入用于驾驶员的另一个奖酬以及输出驾驶员的模拟行动；判别器，其输入来自政策生成器的用于驾驶员的历史轨迹和模拟行动，判别器的输出是与每个模拟行动相对应的奖励；强化学习系统，其基于奖励输出，从模拟行动中提供优化的奖酬政策；以及奖酬服务器，其根据优化的奖酬政策向至少一些运输设备传达选定的奖酬。2.根据权利要求1所述的运输叫车系统，其中，奖酬系统包括驾驶员价值引擎，所述驾驶员价值引擎可操作以基于数据库中的行动和状态来输出驾驶员的排名优先级。3.根据权利要求2所述的运输叫车系统，其中，奖酬服务器可操作以基于排名优先级和优化的奖酬政策来向驾驶员提供奖酬。4.根据权利要求3所述的运输叫车系统，其中，奖酬服务器可操作以在一时间段中分派奖酬预算，并且其中，奖酬在所述时间段中受到所述奖酬预算的限制。5.根据权利要求4所述的运输叫车系统，其中，奖酬预算在所述时间段中被平均分派。6.根据权利要求4所述的运输叫车系统，其中，奖酬预算在所述时间段中被分配为有利于特定时间段。7.根据权利要求1所述的运输叫车系统，其中，联合政策生成器是神经网络。8.根据权利要求1所述的运输叫车系统，其中，选定的奖酬是允许驾驶员在提供特定数量的运输服务后兑现价值的优惠券。9.根据权利要求1所述的运输叫车系统，其中，强化学习系统根据策略梯度方法进行操作。10.根据权利要求1的运输叫车系统，其中，历史...

【专利技术属性】
技术研发人员：尚文杰，李卿阳，秦志伟，孟一平，俞扬，叶杰平，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人