【技术实现步骤摘要】
基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法
[0001]本专利技术属于智能交通与机器学习信息安全的交叉领域,涉及基于快速梯度下降(FGSM)的单交叉口信号控制的交通状态对抗扰动生成方法。
技术介绍
[0002]交通拥堵问题已成为城市交通面临的迫切挑战,设计现代城市时,最关键的考虑因素之一就是开发智能交通管理系统。交通管理系统的主要目标是减少交通拥堵,如今这已成为大城市的主要问题之一。高效的城市交通管理可节省时间和金钱,并减少向大气排放的二氧化碳。
[0003]强化学习(RL)作为交通信号控制问题的一种机器学习技术,已经产生了令人印象深刻的结果。强化学习不需要事先对环境有全面的了解,例如交通流量。相反,他们通过与环境进行交互能够获取知识并为环境动力学建模。在环境中执行每个操作后,它将获得标量奖励。所获得的报酬取决于采取的行动的程度,而智能体的目标是学习最佳控制策略,因此通过与环境的反复交互,可以使折价的累积报酬最大化。深度强化学习(DRL)由于具有快速适应周围环境的出色能力,因此在现实世界中具有众多应用。尽管DRL具有很大的优势,但它容易受到对抗性攻击,例如:引诱攻击、策略定时攻击、基于值函数的对抗攻击、木马攻击等。
技术实现思路
[0004]为了克服已有技术的不足,本专利技术提供了基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,可以对车辆数量及其所处位置添加少量扰动且保证扰动具有实际物理意义,从而高效地生成对抗扰动,大幅降低模型的性能和交通路口流畅程度。 >[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,包括以下步骤:
[0007]步骤1:在单交叉口道路网格上训练强化学习Deep Q Network(DQN)智能体模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在单交叉口测试过程中体现出高流畅度且无拥堵发生;
[0008]步骤2:在交通路口获取各个路口输入端的车辆数量及其所处位置即输入,将当前车辆数与位置输入到模型中,会生成对应的交通信号灯即输出动作,利用FGSM攻击算法,对各个时刻的输入逐一进行攻击,得到相应的对抗扰动;
[0009]步骤3:对生成的对抗扰动进行离散化处理,再将生成的对抗扰动与原始采集到的交通流量相结合得到最终的扰动状态即此时输入到模型中去的交通路口车辆数量及其位置;
[0010]步骤4:在当前构建的扰动状态中,对扰动的大小进行限制,当扰动量小于扰动限
制时将扰动状态输入模型中;当扰动量大于扰动限制时将原始状态输入模型;
[0011]步骤5:对生成的对抗扰动进行性能的测试,将状态输入模型后,智能体会根据当前状态选取交通信号灯的相位,来控制单交叉口的车流量,最后在sumo上对不同输入状态的交通流量得到的红绿灯相位对交通路口的流畅度进行对比。
[0012]作为人工智能领域的研究热点,深度强化学习(DRL)在机器人控制,计算机视觉,智能交通等各个领域都取得了一定的成功。同时,其遭到攻击的可能性以及它是否具有强大的抵抗能力也成为近年来的热门话题。因此,本专利技术在深度强化学习中选择了具有代表性的Deep Q Network(DQN)算法,将单交叉口信号灯控制作为应用场景,并采用快速梯度下降法(FGSM)攻击DQN算法以生成对抗样本。
[0013]本专利技术的技术构思为:根据已有的强化学习DQN算法训练的交通路口信号灯控制模型,利用基于FGSM攻击并结合梯度值大小对对抗扰动进行离散化处理生成对抗样本,将对抗扰动与原始状态相结合得到最终的扰动状态输入到智能体模型中,最后在sumo上对单交叉路口的流畅或拥堵程度检验效果。
[0014]本专利技术的有益效果主要表现在:利用FGSM攻击算法对梯度最大值生成相应对抗扰动且生成的扰动均为离散值,将对抗扰动与原始交通流量结合形成扰动状态,且对扰动状态的扰动量添加扰动限制,该输出即为扰动状态。本专利技术可以在使输出的扰动具有物理意义的情况下限制扰动的大小,从而高效的生成对抗状态,增加路口的排队长度和等待时间,大幅降低模型的性能,使交通路口流通度大大降低。
附图说明
[0015]图1是强化学习示意图。
[0016]图2是FGSM生成对抗扰动的总体流程图。
[0017]图3是单交叉口示意图。
[0018]图4是车辆位置的离散状态。
[0019]图5是单交叉口车辆等待队列长度对比图。
[0020]图6是单交叉口车辆等待时间对比图。
具体实施方式
[0021]下面结合附图对本专利技术作进一步描述。
[0022]参照图1~图6,一种基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,包括以下步骤:
[0023]步骤1:强化学习是一种和环境进行不断交互的算法,如图1所示。强化学习算法包含三个最基本的要素:环境状态、智能体动作、环境奖励。以典型十字交叉路口为例。首先在单交叉口道路网格上训练强化学习智能体模型,对进入单交叉口的所有道路上的交通状态进行离散编码。将单交叉口从路段入口到停车线之间长度为l的道路k(k=1,2,3,4)等距离划分为c个离散单元,将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵s
k
(t),当车辆头部位于某个离散单元上时,则车辆位置矩阵s
k
(t)对应第i(i=1,2,
…
,c)个位置的值为0.5,否则值为
‑
0.5,公式表示为:
[0024][0025]其中表示车辆位置矩阵s
k
(t)第i个位置的值,将t时刻四个路口输入端的车辆位置矩阵s
k
(t)按行首尾拼接构成s
t
,公式表示为:
[0026]s
t
=[s1(t),s2(t),s3(t),s4(t)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0027]再把s
t
作为环境状态输入到智能体模型中训练,智能体输出相应的动作即红绿灯将要执行的相位(如南北绿灯或东西绿灯)。
[0028]以典型十字交叉路口为例进行说明。我们定义交通灯的相位作为动作空间A={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯。在运行时设a
i
的相位的初始时长为m,黄灯相位时长为n。在t时刻将当前状态s
t
输入到智能交通灯模型中,智能交通灯选择相位a
i
(i=1,2,3,4),当a
i
相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
j
(j=1,2,3,4)。若a
i
≠a
j
则a
i
相位执行时间不再本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述方法包括以下步骤:步骤1:在单交叉口道路网格上训练强化学习智能体模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在单交叉口测试过程中体现出高流畅度且无拥堵发生;步骤2:在交通路口获取各个路口输入端的车辆数量及其所处位置即输入,将当前车辆数与位置输入到模型中,会生成对应的交通信号灯即输出动作,利用FGSM攻击算法,对各个时刻的输入逐一进行攻击,得到相应的对抗扰动;步骤3:对生成的对抗扰动进行离散化处理,再将生成的对抗扰动与原始采集到的交通流量相结合得到最终的扰动状态即此时输入到模型中去的交通路口车辆数量及其位置;步骤4:在当前构建的扰动状态中,对扰动的大小进行限制,当扰动量小于扰动限制时将扰动状态输入模型中;当扰动量大于扰动限制时将原始状态输入模型;步骤5:对生成的对抗扰动进行性能的测试,将状态输入模型后,智能体会根据当前状态选取交通信号灯的相位,来控制单交叉口的车流量,最后在sumo上对不同输入状态的交通流量得到的红绿灯相位对交通路口的流畅度进行对比。2.如权利要求1所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤1中,所述单交叉口为十字交叉路口,首先在单交叉口道路网格上训练强化学习智能体模型,对进入单交叉口的所有道路上的交通状态进行离散编码,将单交叉口从路段入口到停车线之间长度为l的道路k(k=1,2,3,4)等距离划分为c个离散单元,将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵s
k
(t),当车辆头部位于某个离散单元上时,则车辆位置矩阵s
k
(t)对应第i(i=1,2,
…
,c)个位置的值为0.5,否则值为
‑
0.5,公式表示为:其中表示车辆位置矩阵s
k
(t)第i个位置的值,将t时刻四个路口输入端的车辆位置矩阵s
k
(t)按行首尾拼接构成s
t
,公式表示为:s
t
=[s1(t),s2(t),s3(t),s4(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)再把s
t
作为环境状态输入到智能体模型中训练,智能体输出相应的动作即红绿灯将要执行的相位;定义交通灯的相位作为动作空间A={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯,在运行时设a
i
的相位的初始时长为m,黄灯相位时长为n,在t时刻将当前状态s
t
输入到智能交通灯模型中,智能交通灯选择相位a
i
(i=1,2,3,4),当a
i
相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
j
(j=1,2,3,4),若a
i
≠a
j
则a
i
相位执行时间不再延长,即a
i
相位结束,在a
i
相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
j
相位;若a
i
=a
j
,则a
i
相位执行时间延长m;将奖励r
t
设置为两个连续动作之间路口车辆的等待时间之差,公式表示为:r
t
=W
t
‑
W
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中W
t
,W
t+1
分别为t时刻和t+1时刻的进入单交叉口所有车道的等待时间,根据执行的
动作再按照环境奖励对动作进行评判,从而不断更新网络的参数,所使用的强化学习模型为DQN,结构包含卷积层、全连接层;参数包含卷积核大小、全连接层神经元的数量,用一个深度神经网络作为Q值网络,初始化网络参数,网络的输出就是Q值,隐含层采用Relu非线性激活函数,其中输出层的神经元个数与单交叉口的动作空间大小相等,公式表示为:Q=h(ws
t
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中w...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。