System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及交通信号控制,特别是涉及一种基于策略复用的多智能体强化学习交通信号控制方法。
技术介绍
1、随着城市化进程的发展,交通拥堵现象日益严重。为了缓解交通拥堵问题,近年来,基于深度学习的多智能体(marl)方法在自适应交通信号控制(atsc)问题的研究上取得了显著进展。
2、然而,绝大多数研究方法都是针对在预定义需求的特定的时间段(certain timeof day,tod)下对模型进行训练。当面对陌生的tod环境,这些方法学习到的智能体通常不能进行有效的决策。即训练良好的模型在遇到某些未曾经历过的tod场景下,也无法做出有效的决策。这导致在新的场景中需要重新对模型进行训练来适应新的环境,不仅造成了计算资源的浪费,也难以部署现实常场景中。该问题是由预定义的需求场景训练智能体模型时遇到的受限探索问题引起的。交通仿真为智能体学习提供一个环境,智能体与环境交互获得“经验”,智能体根据提供的经验学习策略。然而,由于交通仿真基本上是基于给定的需求场景设置,它将交通状态归纳在一定的受限的搜索空间中。因此,智能体仅基于受限探索而产生的部分经验来学习策略,这种策略通常不能适应一些未被探索的、从未见过的交通状态,从而导致决策的失败。但是,在现实应用中,交通状态通常是复杂多变,且实时变化,这就要求方法应该具有足够的泛化性。并且现实环境中是不允许不断试错累积经验来学习策略和较长的训练周期,需要根据环境任务在短时间内做出快速的响应,要求模型需要极高的训练效率和收敛速度。现有的方法限制了实际的应用。
3、因此,需要一种能
技术实现思路
1、有鉴于此,本专利技术提供了一种基于策略复用的多智能体强化学习交通信号控制方法,将迁移学习和强化学习的思想相结合,解决传统深度强化学习在交通信号控制中面临的训练时间长,数据样本利用效率低,泛化能力弱的问题。
2、为此,本专利技术提供了以下技术方案:
3、一种基于策略复用的多智能体强化学习交通信号控制方法,包括步骤:
4、构建智能体通用edlight模型;所述通用edlight模型,包括:用于提取当前时刻路口的观测信息并对其进行编码的编码器;用于预测下一时刻路口特征信息的解码器,并存储当前任务的环境模型,作为帮助其他任务的外部知识;用于对下一时刻的相位动作进行评分,选择分数高的动作用于决策的动作价值网络;
5、基于现有tod场景对通用edlight模型进行预训练,所述预训练模型集合作为策略库;在需要学习的未知tod场景的目标任务中,待优化的目标智能体模型存入策略库;通过损失函数更新待优化的目标智能体模型,并作为新的预训练模型对策略库进行更新;
6、计算未知tod目标环境和预训练模型环境相似度;基于所述相似度,从策略库中通过概率采样选择指导策略进行决策,控制交通信号;
7、所述目标智能体模型通过不断更新,被采样概率逐渐增大。
8、进一步地,所述基于现有tod场景对通用edlight模型进行预训练,包括:
9、以编码器-解码器的结构作为预测模块来学习路口的环境动态变化模型;
10、以编码器-动作价值网络架构作为决策模块来对交通信号灯进行控制;
11、通过最小化预测模块的输出、原始观测的均分误差、决策模块的价值函数的时序差分误差,实现策略存储和决策学习的并行优化。
12、进一步地,所述编码器使用注意力机制将自身路口的特征信息与邻居路口的特征信息融合。
13、进一步地,所述通过损失函数更新待优化的目标智能体模型:
14、
15、其中ω和θ对应编码器,解码器,动作价值网络的参数;和θ-为目标网络的参数;b表示采样训练的批量数;n表示路网中路口的数目;路网的每个路口设置一个智能体,智能体共享模型参数;为当前时刻路口i和周边邻居的路口观测信息,ai表示路口i的智能体在当前时刻执行的动作,o′i表示下一时刻路口i的观测信息;yi为路口i智能体的动作价值网络的优化目标;ri为路口i智能体在当前时刻获得的奖励;γ为折扣因子;a′表示根据下一时刻的观测信息选择出最大动作价值的动作。
16、进一步地,所述计算未知tod目标环境和预训练任务环境的相似度,包括:
17、智能体与未知目标环境进行交互时,获得一串观测动作的轨迹,轨迹以m个时间步记为一个周期;
18、获取每个时间步下每个策略对目标任务的相似度;
19、通过每个时间步相似度,获得策略库中每个策略在一个周期内对目标任务的相似度权重。
20、进一步地,所述获取每个时间步下每个策略对目标任务的相似度,包括:
21、在t时刻下,获取路口i的观测特征向量oi和动作ai,则t~t+m阶段的动作是由上一个阶段的指导策略和很小概率的随机动作组合的行为策略给出的;
22、将t时刻的观测动作对(oi,ai)输入至策略库中,策略库中的策略模型存储了对应任务的环境模型,每个模型根据t时刻的观测动作对(oi,ai)进行预测,得到t+1时刻的预测观测特征;
23、利用编码器对来自于不同网络预测的观测特征进行标准化;
24、计算t+1时刻的预测特征向量与相应真实观测特征向量的欧式距离,利用二者的距离来衡量这一时间步的相似性,距离越小说明任务越相似。
25、进一步地,所述利用编码器对来自于不同网络预测的观测特征进行标准化,包括:
26、将各个模型的预测观测特征与真实观测特征输入至模型的平均编码器;
27、其中,预测观测特征与真实观测特征均包含路口i在t+1时刻的邻居信息;
28、所述预测特征的邻居特征信息,通过对应策略的环境模型在相应邻域路口下预测得到;
29、真实观测的邻居信息由环境反馈得到。
30、进一步地,所述通过每个时间步相似度,获得策略库中每个策略在一个周期内对目标任务的相似度权重,包括:
31、基于时间步相似度,计算策略库中每个策略对目标任务的相似度权重:
32、
33、其中,表示源域k的策略在j时刻预测的下一时刻特征向量与下一时刻真实观测特征向量的欧式距离、μ表示折扣因子;wk表示源域k在t~t+m阶段内与目标任务的相似程度;
34、获取策略库中的每个策略在该周期内的相似度权重[w1,w2,...,wk,wtar]。
35、进一步地,基于所述相似度,从策略库中通过概率采样选择指导策略进行决策,控制交通信号,包括:
36、利用每个模型在该周期内的相似度权重[w1,w2,...,wk,wtar],通过softmax函数计算出相应的概率[p1,p2,...,pk,ptar],针对[p1,p2,...,pk,ptar]进行采样,从策略库中选择策略作为指导策略;策略库中的目标模型在学习的过程中不断更本文档来自技高网...
【技术保护点】
1.一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,包括步骤:
2.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述基于现有TOD场景对通用EDLight模型进行预训练,包括:
3.根据权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述编码器使用注意力机制将自身路口的特征信息与邻居路口的特征信息融合。
4.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述通过损失函数更新待优化的目标智能体模型:
5.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述计算未知TOD目标环境和预训练任务环境的相似度,包括:
6.权利要求5所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述获取每个时间步下每个策略对目标任务的相似度,包括:
7.权利要求6所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述利用编码器对来自于不同网络预测
8.权利要求5所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述通过每个时间步相似度,获得策略库中每个策略在一个周期内对目标任务的相似度权重,包括:
9.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,基于所述相似度,从策略库中通过概率采样选择指导策略进行决策,控制交通信号,包括:
...【技术特征摘要】
1.一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,包括步骤:
2.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述基于现有tod场景对通用edlight模型进行预训练,包括:
3.根据权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述编码器使用注意力机制将自身路口的特征信息与邻居路口的特征信息融合。
4.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述通过损失函数更新待优化的目标智能体模型:
5.权利要求1所述的一种基于策略复用的多智能体强化学习交通信号控制方法,其特征在于,所述计算未知tod目标环境和预训练任务环境...
【专利技术属性】
技术研发人员:张程伟,李一鸿,周凯玲,刘婉婷,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。