一种基于多智能体强化学习的混合网约车定价优化系统技术方案

技术编号：37304194 阅读：11 留言：0更新日期：2023-04-21 22:49

本发明专利技术涉及一种基于多智能体强化学习的混合网约车定价优化系统，包括环境生成模块、智能体生成模块、网络更新模块、智能体训练模块、记忆库模块、互动模块；环境生成模块用于生成特定的训练环境用于与智能体进行交互；智能体生成模块生成用于训练的多个智能体和优化器；智能体训练模块用于在满足一定条件之后通过训练神经网络训练智能体；记忆库模块用于重复学习，随机抽取的经验降低了状态之间的相关性，使神经网络更新更有效率；互动模块：智能体与环境互动做出动作，生成状态、奖励等参数。本发明专利技术系统相比传统的经济学模型更加接近真实世界，更加准确，实现了使用强化学习解决混合时空定价问题。时空定价问题。时空定价问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多智能体强化学习的混合网约车定价优化系统

[0001]本专利技术涉及一种基于多智能体强化学习的混合网约车定价优化系统，属于混合网约车系统优化

技术介绍

[0002]随着车联网技术的发展，自动驾驶走进了大众视野中。目前，全球已经有100多个国家发布了自动驾驶车辆规划图。
[0003]随着自动驾驶的兴起，势必会对传统的人工网约车平台产生不小的冲击。自动驾驶网约车和人工驾驶网约车互为竞争关系，研究混合平台的竞争性时空定价问题能够帮助新型的自动驾驶网约车平台有效吸纳用户、扩大市场份额、提高平台收益，同时也是解决其大规模商业化问题的关键。
[0004]目前的定价方法一般都是动态定价与空间定价，但都存在一定的局限性，例如无法同时考虑到时间与空间的信息，这是因为定价策略会对司机迁移和乘客数量产生长期的影响，所以作为一个顺序优化问题，传统的定价方法在面对多个区域多变量的情况时很难解决，所以需要一个新的定价方法来解决多个智能体的情况下的多变量问题。
[0005]强化学习(Reinforcementlearning,RL)是一种算法，这种算法允许设置智能体与环境进行交互，获得奖励，通过不断训练智能体的策略从而不断积累最大奖励。现有的研究已经证明，从电子游戏到大家所熟知的围棋领域都取得了不错的成效。因此，强化学习在解决多变量顺序优化问题上表现出强大的能力，是解决时空定价问题的必要和合适的方法。
[0006]多智能体算法的出现使得算法更加完善，MADDPG(Multi
‑
a...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的混合网约车定价优化系统，其特征在于：包括智能体生成模块、网络更新模块、智能体训练模块、记忆库模块和环境互动模块；智能体生成模块：生成用于训练的多个智能体和优化器；智能体训练模块：用于在满足一定条件之后通过训练神经网络训练智能体；记忆库模块：用于重复学习，随机抽取的经验降低了状态之间的相关性，使神经网络更新更有效率；环境互动模块：智能体与环境互动做出动作，生成状态、奖励参数。2.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统，其特征在于：所述智能体生成模块由四个网络组成，包括：价值网络：对策略网络的输出进行评价，策略网络效果越好，价值网络的输出越大；策略网络效果越差，价值网络给出的评价也就越差，该网络的输入为联合状态变量s
t
与联合行为a
t
拼接在一起的张量，输出则是一个实数；策略网络：根据当前状态变量执行动作，开始的时候动作随机，随着训练的进行动作逐渐变得合理，该网络的输入为当前智能体所能观测到的状态变量输出是控制变量目标网络：目标网络有两个，一个是价值网络的目标网络，一个是策略网络的目标网络，结构与价值网络和策略网络完全一致，两个目标网络用来固定训练目标，使神经网络更加稳重，容易收敛。3.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统，其特征在于：所述环境互动模块由所有智能体的总控制变量与环境进行互动，得到每个智能体进行动作时的奖励和环境新的状态变量s
t+1
，强化学习算法使用控制变量，状态变量，奖励更新神经网络，包括：状态变量s：将人工驾驶平台不同区域等待乘客的数量人工驾驶平台停车的车辆数量人工驾驶平台巡游的车辆的终点数量自动驾驶平台不同区域等待乘客数量自动驾驶平台不同区域等待乘客数量自动驾驶平台停车的车辆数量自动驾驶平台巡游的车辆的终点数量和不同地区的实际网约车需求作为联合状态变量s
t
∈R
2I
，联合状态变量用于指示环境的状况，可以表示为：s
t
＝[hv
t
,av
t
] (1)式中，hv
t
＝[hw
t
,hi
t
,hh
t
,re
t
]，表示人工驾驶平台在时间步骤t结束时可以观察到的状态变量；av
t
＝[aw
t
,ai
t
,ah
t
,re
t
]，表示自动驾驶平台在时间步骤t结束时可以观测到的状态变量av
t
；控制变量a：联合动作a
t
∈R
3I
可以表示为：a
t
＝[w,hp
t
,ap
t
] (2)式中，w表示工资比，系统设置了八个区域，表示为,ap
t
是自动驾驶平台的价格设置，每个区域的价格设置在0
‑
5元/公里，动作将影响自动驾驶平台上的
乘客数量，该系统设置了八个区域，因此它有八个维度，可以表示为奖励r：联合奖励r
t
∈R
2I
可以表示为:r
t
＝[hr
t
,ar
t
] (3)式中，奖励r
t
是时间步长t的模拟利润；hr
t
表示人工驾驶平台的收入，等于人工驾驶平台减去支付给所有人工驾驶人的支出，ar
t
表示自动驾驶平台的收益，等于自动驾驶平台所有订单的收入减去燃料成本和折旧支出，训练的最终目标是提高hr
t
和ar
t
的总和，并在合作和竞争场景下最大化收益。4.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统，其特征在于：所述记忆库模块具体包括：数据以以下方式储存：(s
t
,a
t
,r
...

【专利技术属性】
技术研发人员：杨浩男，陈楚翘，翟春杰，魏欣宇，颜成钢，高跃，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人