一种基于多智能体强化学习的混合网约车定价优化系统技术方案

技术编号:37304194 阅读:11 留言:0更新日期:2023-04-21 22:49
本发明专利技术涉及一种基于多智能体强化学习的混合网约车定价优化系统,包括环境生成模块、智能体生成模块、网络更新模块、智能体训练模块、记忆库模块、互动模块;环境生成模块用于生成特定的训练环境用于与智能体进行交互;智能体生成模块生成用于训练的多个智能体和优化器;智能体训练模块用于在满足一定条件之后通过训练神经网络训练智能体;记忆库模块用于重复学习,随机抽取的经验降低了状态之间的相关性,使神经网络更新更有效率;互动模块:智能体与环境互动做出动作,生成状态、奖励等参数。本发明专利技术系统相比传统的经济学模型更加接近真实世界,更加准确,实现了使用强化学习解决混合时空定价问题。时空定价问题。时空定价问题。

【技术实现步骤摘要】
一种基于多智能体强化学习的混合网约车定价优化系统


[0001]本专利技术涉及一种基于多智能体强化学习的混合网约车定价优化系统,属于混合网约车系统优化


技术介绍

[0002]随着车联网技术的发展,自动驾驶走进了大众视野中。目前,全球已经有100多个国家发布了自动驾驶车辆规划图。
[0003]随着自动驾驶的兴起,势必会对传统的人工网约车平台产生不小的冲击。自动驾驶网约车和人工驾驶网约车互为竞争关系,研究混合平台的竞争性时空定价问题能够帮助新型的自动驾驶网约车平台有效吸纳用户、扩大市场份额、提高平台收益,同时也是解决其大规模商业化问题的关键。
[0004]目前的定价方法一般都是动态定价与空间定价,但都存在一定的局限性,例如无法同时考虑到时间与空间的信息,这是因为定价策略会对司机迁移和乘客数量产生长期的影响,所以作为一个顺序优化问题,传统的定价方法在面对多个区域多变量的情况时很难解决,所以需要一个新的定价方法来解决多个智能体的情况下的多变量问题。
[0005]强化学习(Reinforcementlearning,RL)是一种算法,这种算法允许设置智能体与环境进行交互,获得奖励,通过不断训练智能体的策略从而不断积累最大奖励。现有的研究已经证明,从电子游戏到大家所熟知的围棋领域都取得了不错的成效。因此,强化学习在解决多变量顺序优化问题上表现出强大的能力,是解决时空定价问题的必要和合适的方法。
[0006]多智能体算法的出现使得算法更加完善,MADDPG(Multi

agentDeep DeterministicPolicyGradient)算法考虑了其他智能体的行动策略,并能够成功地学习需要复杂的多智能体协调的策略,同时,在合作和竞争场景中,智能体群体能够发现各种物理和信息协调策略,更加符合交通定价的实际情况。

技术实现思路

[0007]为了克服现有研究的不足,本专利技术提供了一种帮助自动驾驶网约车在人工驾驶网约车竞争环境下落地,有效提升竞争环境下的不同平台的利润,有效提升网约车系统车辆利用率的一种基于多智能体强化学习(Multi

agentReinforcement Learning,MARL)的混合网约车定价优化系统。
[0008]一种基于多智能体强化学习的混合网约车定价优化系统包括环境生成模块、智能体生成模块、网络更新模块、智能体训练模块、记忆库模块、互动模块。
[0009]环境生成模块:用于生成特定的训练环境用于与智能体进行交互;
[0010]智能体生成模块:生成用于训练的多个智能体和优化器;
[0011]智能体训练模块:用于在满足一定条件之后通过训练神经网络训练智能体;
[0012]记忆库模块:用于重复学习,随机抽取的经验降低了状态之间的相关性,使神经网络更新更有效率;
[0013]互动模块:智能体与环境互动做出动作,生成状态、奖励等参数。
[0014]一种基于多智能体强化学习的混合网约车定价优化系统采用演员

评论家(Actor

Critic,AC)框架,包括以下步骤:
[0015]步骤一:通过环境生成模块初始化一个随机状态变量s
t
动作探索,智能体生成模块生成一定数量的智能体与优化器;
[0016]步骤二:智能体接收初始状态变量s
t

[0017]步骤三:对于每个智能体,将状态变量s
t
输入到策略网络得到控制变量作为当前的策略并进行探索;
[0018]步骤四:将所有智能体的动作变量输入到环境互动模块中获取每个智能体在此动作变量下的奖励和新的状态变量s
t+1

[0019]步骤五:将初始联合状态变量s
t
、联合控制变量a
t
、联合奖励r
t
和新的联合状态变量s
t+1
储存到记忆库D中,并使初始联合状态变量s
t
等于新的联合状态变量s
t+1
,完成状态变量的改变;
[0020]步骤六:在记忆库D中随机取一定数量的记忆作为样本,计算出策略网络和价值网络的误差,利用误差更新价值网络和策略网络;
[0021]步骤七:更新目标网络;
[0022]步骤八:判断价值网络和策略网络的是否满足最大迭代次数。若满足,则求解出的控制变量作为最优或者次优的控制变量,否则回到第二步。
[0023]与现有技术相比,本专利技术的有益效果在于:
[0024]传统的网约车定价是使用经济学模型的方法,无法求解时空定价这种复杂多变量耦合问题,我们专利技术的系统存在以下优点:
[0025]本专利技术使用了包含多个网约车平台的仿真,相比传统的经济学模型更加接近真实世界,更加准确;
[0026]本专利技术使用多智能体强化学习解决了时空定价问题,传统模型无法兼顾时间与空间问题,也无法解决多变量多输入问题。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术基于多智能体强化学习的混合网约车定价优化系统的混合网约车定价优化系统执行环境仿真图;
[0029]图2为本专利技术AC框架结构图;
[0030]图3为本专利技术MADDPG算法结构图;
[0031]图4为本专利技术MADDPG价值网络结构;
[0032]图5为本专利技术MADDPG人工驾驶平台策略网络结构;
[0033]图6为本专利技术MADDPG自动驾驶平台策略网络结构;
[0034]图7为本专利技术智能体迭代25000次的利润图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]一种基于多智能体强化学习的混合网约车定价优化系统包括环境生成模块、训练对象生成模块、智能体训练模块、记忆库模块、互动模块。
[0037]环境生成模块:用于生成特定的训练环境用于与智能体进行交互;
[0038]智能体生成模块:生成用于训练的多个智能体和优化器;
[0039]智能体训练模块:用于在满足一定条件之后通过训练神经网络训练智能体;
[0040]记忆库模块:用于重复学习,随机抽取的经验降低了状态之间的相关性,使神经网络更新更有效率;
[0041]环境互动模块:智能体与环境互动做出动作,生成动作、状态、奖励等参数。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的混合网约车定价优化系统,其特征在于:包括智能体生成模块、网络更新模块、智能体训练模块、记忆库模块和环境互动模块;智能体生成模块:生成用于训练的多个智能体和优化器;智能体训练模块:用于在满足一定条件之后通过训练神经网络训练智能体;记忆库模块:用于重复学习,随机抽取的经验降低了状态之间的相关性,使神经网络更新更有效率;环境互动模块:智能体与环境互动做出动作,生成状态、奖励参数。2.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统,其特征在于:所述智能体生成模块由四个网络组成,包括:价值网络:对策略网络的输出进行评价,策略网络效果越好,价值网络的输出越大;策略网络效果越差,价值网络给出的评价也就越差,该网络的输入为联合状态变量s
t
与联合行为a
t
拼接在一起的张量,输出则是一个实数;策略网络:根据当前状态变量执行动作,开始的时候动作随机,随着训练的进行动作逐渐变得合理,该网络的输入为当前智能体所能观测到的状态变量输出是控制变量目标网络:目标网络有两个,一个是价值网络的目标网络,一个是策略网络的目标网络,结构与价值网络和策略网络完全一致,两个目标网络用来固定训练目标,使神经网络更加稳重,容易收敛。3.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统,其特征在于:所述环境互动模块由所有智能体的总控制变量与环境进行互动,得到每个智能体进行动作时的奖励和环境新的状态变量s
t+1
,强化学习算法使用控制变量,状态变量,奖励更新神经网络,包括:状态变量s:将人工驾驶平台不同区域等待乘客的数量人工驾驶平台停车的车辆数量人工驾驶平台巡游的车辆的终点数量自动驾驶平台不同区域等待乘客数量自动驾驶平台不同区域等待乘客数量自动驾驶平台停车的车辆数量自动驾驶平台巡游的车辆的终点数量和不同地区的实际网约车需求作为联合状态变量s
t
∈R
2I
,联合状态变量用于指示环境的状况,可以表示为:s
t
=[hv
t
,av
t
] (1)式中,hv
t
=[hw
t
,hi
t
,hh
t
,re
t
],表示人工驾驶平台在时间步骤t结束时可以观察到的状态变量;av
t
=[aw
t
,ai
t
,ah
t
,re
t
],表示自动驾驶平台在时间步骤t结束时可以观测到的状态变量av
t
;控制变量a:联合动作a
t
∈R
3I
可以表示为:a
t
=[w,hp
t
,ap
t
] (2)式中,w表示工资比,系统设置了八个区域,表示为,ap
t
是自动驾驶平台的价格设置,每个区域的价格设置在0

5元/公里,动作将影响自动驾驶平台上的
乘客数量,该系统设置了八个区域,因此它有八个维度,可以表示为奖励r:联合奖励r
t
∈R
2I
可以表示为:r
t
=[hr
t
,ar
t
] (3)式中,奖励r
t
是时间步长t的模拟利润;hr
t
表示人工驾驶平台的收入,等于人工驾驶平台减去支付给所有人工驾驶人的支出,ar
t
表示自动驾驶平台的收益,等于自动驾驶平台所有订单的收入减去燃料成本和折旧支出,训练的最终目标是提高hr
t
和ar
t
的总和,并在合作和竞争场景下最大化收益。4.根据权利要求1所述的一种基于多智能体强化学习的混合网约车定价优化系统,其特征在于:所述记忆库模块具体包括:数据以以下方式储存:(s
t
,a
t
,r
...

【专利技术属性】
技术研发人员:杨浩男陈楚翘翟春杰魏欣宇颜成钢高跃
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1