【技术实现步骤摘要】
基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法
[0001]本专利技术属于智能交通与机器学习信息安全的交叉
,具体涉及一种基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法。
技术介绍
[0002]交通拥堵已成为城市可持续和谐发展面临的重大战略问题。由于城市空间的限制,通过道路扩建缓解交通拥堵变得困难。交通信号控制是提高道路交叉口通行能力的最有效途径之一,交通信号灯的自适应控制可以优化区域路网的交通,减少拥堵和二氧化碳排放。
[0003]许多研究使用强化学习(RL)的框架来寻找最优控制策略。RL通过感知环境状态和接收来自环境的不确定信息来学习最优策略,最大化折扣累积回报。交通信号控制实际上是一个顺序决策问题。近年来,由于深度强化学习(DRL)受到广泛关注,许多研究人员将DRL引入自适应交通信号控制,DRL利用深度模型的特征提取能力并结合卷积神经网络从原始实时交通状态数据中提取交叉口状态信息进行优化决策。
[0004]然而在安全领域,在深度学习模型训练阶段容易受到攻击。例如在模型训练过程中加入木马触发器,由此产生的中毒模型在干净的输入中表现正常;但是,如果输入中包含木马触发器,则中毒模型会出现错误行为,例如,将输入分类为攻击者预设的目标类。因此,将交叉口交通信号灯控制作为应用场景,确保DRL交通信号控制模型部署之前,通过防御的方法检验模型是否存在安全威胁并消除异常,这是至关重要的。
技术实现思路
[0005]为了克服已有技术的不足,本专利技术提供了一
【技术保护点】
【技术特征摘要】
1.一种基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法,包括以下步骤:步骤1:对于训练好的模型,再次将训练数据作为输入并加入大量的随机噪声生成扰动状态数据,将这些扰动状态数据输入到模型中观察预测结果的概率值变化并计算信息熵;步骤2:基于每个扰动状态输入的熵计算所有输入的熵值之和,熵值之和的大小反应了输入数据中包含木马触发器的概率;再将每个交通状态数据的信息熵分布进行拟合,找出最适合的概率分布并设定检测阈值,由此将交通状态数据划分为后门数据和干净数据两个子集;步骤3:通过基于梯度的计算方法对每个后门数据中的数据点进行降序删除,直至中毒模型输出的动作发生变化,记录下此时删除的异常点并记为“反向触发器”;最后所有后门数据对应的“反向触发器”再采用绝对中位差的异常点检测算法找出最终唯一的“反向触发器”,所述反向触发器就是导致中毒模型输出结果异常的原始触发器;步骤4:针对数据层面的防御:在模型测试过程中检测交通状态数据是否包含反向触发器,一旦测试数据中检测到反向触发器就对该数据中的反向触发器进行删除再输入到模型中;针对模型层面防御:将原始训练数据的10%取出与反向触发器重构训练集,并修改这些训练数据的标签为原始标签,原始标签在识别过程中能够被发现,将重构的训练集输入到中毒模型中进行忘却学习,再进行微调最终得到防御模型。2.如权利要求1所述的基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法,其特征在于,所述步骤1中交通状态的实验对象是十字交叉路口,首先对原始交通状态数据添加大量的随机噪声生成N个扰动交通状态数据并使用信息熵来表示给定交通状态数据x对应的所有扰动输入的预测类的随机性,信息熵的计算公式为:其中,y
i
是扰动交通状态数据预测结果属于i类的概率,M是所有预测类别的个数;将交通状态数据x和所有N个扰动交通状态数据都作为深度强化学习交通信号控制模型的输入,基于每个扰动交通状态数据x
Pn
的熵H
n
,所有N个扰动交通状态数据的熵和为:通过观察它们的预测类别和熵值的大小来确定交通状态数据x中是否包含木马触发器,并且H
sum
越高,交通状态数据x中含有木马触发器的概率越低;进一步对Hsum进行规范化:其中,H是交通状态数据x的信息熵,用于判断交通状态数据x是否包含木马触发器。
3.如权利要求2所述的基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法,其特征在于,所述步骤2的过程如下:根据步骤1中得到的交通状态数据x的信息熵H,将所有输入数据进行汇总得到信息熵的分布情况;并且可以使用干净的交通状态数据x估计熵的分布情况,通过实验可以发现这种分布是正态分布;再计算得到干净数据的熵分布的平均值和标准差;首先确定检测过程的错误拒绝率(FRR),例如1%,然后计算正态分布的百分位数并将该百分位作为检测边界;也就是说,对于干净的交通状态数据的熵分布,该检测边界在1%FRR范围内;此外,错误接收率用于记录含有木马触发器的交通状态数据的熵大于该检测边界的概率;最后,通过设置检测边界将所有的交通状态数据划分为后门数据和干净数据两个子集。4.如权利要求2所述的基于强扰动检测与模型再训练的深度强化学习交通信号控制中毒防御方法,其特征在于,所述步骤3的过程如下:为了找出后门数据中的触发器位置,对后门数据中所有交通状态数据逐个采用基于梯度的方法得到交通状态数据中每个状态位对预测结果的影响是正向的还是逆向的,每个状态位的梯度值大小记为:η={η1,
……
,η
j
}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,j代表交通状态数据中的车辆状态位的个数,η
j
代表第j个状态位的梯度值大小;模型的预测过程表示为:a
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。