一种基于轻量级多模态神经网络的行车危险场景辨识方法技术

技术编号：33145199 阅读：10 留言：0更新日期：2022-04-22 13:56

本发明专利技术涉及一种基于轻量级多模态神经网络的行车危险场景辨识方法，包括以下：获取当前时间段内驾驶视频和车载数据；将驾驶视频的画面划分为上下分布的三个驾驶区域，将视频每一帧画面的每个驾驶区域内的图像在竖直方向上做均值化处理，转化为一行像素，然后将每帧对应的一行像素按时间顺序拼接在一起，形成每个驾驶区域的运动轮廓图；将每个驾驶区域的运动轮廓图和车载数据输入至行车风险评估模型得到辨识结果；所述行车风险评估模型为包括视觉数据处理层、运动学数据处理层、数据融合层和预测层的多模态神经网络。与现有技术相比，本发明专利技术具有减小运行数据量、简化模型计算过程，耗时低、准确率高等优点。准确率高等优点。准确率高等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于轻量级多模态神经网络的行车危险场景辨识方法

[0001]本专利技术涉及自动驾驶算法领域，尤其是涉及一种基于轻量级多模态神经网络的行车危险场景辨识方法。

技术介绍

[0002]目前，自动驾驶汽车正在全球范围内进行大规模的测试，其中安全测试是首要关注的问题。与传统车辆一般采用基于距离的方法进行测试不同的是，自动车辆主要采用基于场景的测试方法。因此，虚拟驾驶场景的构建是目前的一个关键研究问题。而其中，危险驾驶场景通常被认为比正常场景更重要，因为前者可以被用来更快地识别潜在的安全问题，从而提高测试工作的效率。
[0003]为了识别危险驾驶场景，传统的方法主要依赖于结构化数据，包括雷达采集到的运动学数据速度、加速度等。例如，“Crash and near
‑
crash prediction from vehicle kinematics data:A SHRP2 naturalistic driving study”中基于运动学数据使用了经典机器学习分类器，包括kNN，随机森林，SVM，决策树，高斯邻域和AdaBoost。然而，这些传统方法的一个主要问题是，由于提取的结构化数据质量差，以及对驾驶环境的感知不完整，误报率高。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于轻量级多模态神经网络的行车危险场景辨识方法，以供自动驾驶算法测试使用，提高自动驾驶测试的准确性。
[0005]本专利技术的目的可以通过以下技术方案来实现：/>[0006]一种基于轻量级多模态神经网络的行车危险场景辨识方法，其特征在于，包括以下步骤：
[0007]S1、获取当前时间段内驾驶视频和车载数据；
[0008]S2、将驾驶视频的画面划分为上下分布的三个驾驶区域，将视频每一帧画面的每个驾驶区域内的图像在竖直方向上做均值化处理，转化为一行像素，然后将每帧对应的一行像素按时间顺序拼接在一起，形成每个驾驶区域的运动轮廓图；
[0009]S3、将每个驾驶区域的运动轮廓图和车载数据输入至行车风险评估模型得到辨识结果；
[0010]所述行车风险评估模型为包括视觉数据处理层、运动学数据处理层、数据融合层和预测层的多模态神经网络，其中：所述视觉数据处理层为轻量化CNN网络，采用AlexNet网络结构并且引入注意力机制进行改进，用于运动轮廓图输入轻量化CNN网络后输出得到视觉特征；所述运动学数据处理层为LSTM网络，用于车载数据输入LSTM网络后输出得到运动学特征；所述数据融合层为全连接层，用于输入视觉特征和运动学特征后输出得到辨识结果。
[0011]进一步地，步骤S2中具体包括：
[0012]S21、对驾驶视频根据相机机位，按照与本车的远近距离从原视频中划分出三个驾驶区域，每个区域由上边界和下边界划分；
[0013]S22、基于当前时间段[t
a
,t
b
]内的驾驶视频片段，对步骤S21中得到的每一个驾驶区域进行采样，获取每帧画面中纵向[y
l
,y
u
]、横向[0,w]矩形范围内的RGB像素值，其中w为视频宽度，y
l
为采样下边界，y
u
为采样上边界；
[0014]S23、对矩形范围内图像的R、G、B三个通道，分别进行如下操作：在竖直方向上取像素均值，将(w
×
(y
u
‑
y
l
))的矩阵压缩成(w
×
1)的矩阵，接着将三个通道的结果进行叠加，得到每帧对应的一行(w
×
3)像素矩阵；
[0015]S24、将每帧获得的一行像素矩阵按时间顺序拼接在一起，形成(fps
×
(t
b
‑
t
a
),w,3矩阵，按像素矩阵生成彩色的运动轮廓图，其中fps为视频每秒帧数。
[0016]进一步地，步骤S3中轻量化CNN网络在每一层卷积层之后引入注意力机制模块，对特征图分别进行通道注意力和空间注意力变换，重新构造得到新的特征图，其中通道注意力和空间注意力的计算公式分别如下：
[0017]Attention
c
＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))
[0018]Attention
s
＝σ(Conv([AvgPool(F),MaxPool(F)]))
[0019]其中，Attention
c
，Attention
s
分别表示通道注意力和空间注意力的结果，F表示某一层卷积层输出的特征图，σ表示Sigmoid函数，MLP表示一个多层感知机网络，Conv表示一个输出通道数为1的卷积层。
[0020]进一步地，行车风险评估模型的输出训练集合包括正常事件集和高风险事件集，其获取方法如下：
[0021]A1、采集历史车载数据；
[0022]A2、使用正态分布的3σ原则来检测和过滤出历史车载数据的异常值，将异常值作为缺失值；
[0023]A3、采用线性插值法填补历史车载数据中的缺失值，得到完整车载数据；
[0024]A4、提出完整车载数据中的车辆加速度数据a，绘制并观察分布曲线，确定明显减速行为的加速度阈值，记为TH
d
；
[0025]A5、按照时序遍历所有的车辆加速度数据，根据加速度条件a≤TH
d
采集紧急刹车时刻t
d
，对每一时刻t
d
，取前d1到后d2秒的时间片段，组成潜在高风险事件片段e
c
，结合视频校核，排除因数据采集错误带来的误报，将多个高风险事件片段组成高风险事件集；
[0026]A6、从步骤A5中剩下的车辆加速度数据中以|d1+d2|为时间窗口，随机采样出多个正常非冲突事件作为正常事件集。
[0027]进一步地，步骤A2中将一条历史车载数据的每个非空运动学特征变量进行条件判断，符合条件的为异常值，所述条件判断的表达式为：
[0028]|x
‑
μ|＞3σ
[0029]其中，x为非空运动学特征变量，μ为x的平均值，σ为x的标准差。
[0030]进一步地，步骤A3中线性插值法的计算表达式为：
[0031][0032]其中，是缺失值，d
i
‑1为缺失值的上一个非空最邻近值，d
i+1
是缺失值的下一个非空最邻近值，n是记录总数，t
i
‑1,t
i
,t
i+1
分别为d
i
‑1,d
i+1
对应的时刻。
[0033]进一步地，行车风险评估模型的输出训练集合包括CNN网络训练集，其获取方法为：
[0034]获取历史驾驶视频；
[0035]将历本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于轻量级多模态神经网络的行车危险场景辨识方法，其特征在于，包括以下步骤：S1、获取当前时间段内驾驶视频和车载数据；S2、将驾驶视频的画面划分为上下分布的三个驾驶区域，将视频每一帧画面的每个驾驶区域内的图像在竖直方向上做均值化处理，转化为一行像素，然后将每帧对应的一行像素按时间顺序拼接在一起，形成每个驾驶区域的运动轮廓图；S3、将每个驾驶区域的运动轮廓图和车载数据输入至行车风险评估模型得到辨识结果；所述行车风险评估模型为包括视觉数据处理层、运动学数据处理层、数据融合层和预测层的多模态神经网络，其中：所述视觉数据处理层为轻量化CNN网络，在AlexNet基础上进行网络结构轻量化并且引入注意力机制进行改进，用于运动轮廓图输入轻量化CNN网络后输出得到视觉特征；所述运动学数据处理层为LSTM网络，用于车载数据输入LSTM网络后输出得到运动学特征；所述数据融合层为全连接层，用于输入视觉特征和运动学特征后输出得到辨识结果。2.根据权利要求1所述的一种基于轻量级多模态神经网络的行车危险场景辨识方法，其特征在于，步骤S2中具体包括：S21、对驾驶视频根据相机机位，按照与本车的远近距离从原视频中划分出三个驾驶区域，每个区域由上边界和下边界划分；S22、基于当前时间段[t
a
，t
b
]内的驾驶视频片段，对步骤S21中得到的每一个驾驶区域进行采样，获取每帧画面中纵向[y
l
，y
u
]、横向[0，w]矩形范围内的RGB像素值，其中w为视频宽度，y
l
为采样下边界，y
u
为采样上边界；S23、对矩形范围内图像的R、G、B三个通道，分别进行如下操作：在竖直方向上取像素均值，将(w
×
(y
u
‑
y
l
))的矩阵压缩成(w
×
1)的矩阵，接着将三个通道的结果进行叠加，得到每帧的一行(w
×
3)像素矩阵；S24、将每帧获得的一行像素矩阵按时间顺序拼接在一起，形成(fps
×
(t
b
‑
t
a
)，w，3)矩阵，按像素矩阵生成彩色的运动轮廓图，其中fps为视频每秒帧数。3.根据权利要求1所述的一种基于轻量级多模态神经网络的行车危险场景辨识方法，其特征在于，步骤S3中轻量化CNN网络在每一层卷积层之后引入注意力机制模块，对特征图分别进行通道注意力和空间注意力变换，重新构造得到新的特征图，其中通道注意力和空间注意力的计算公式分别如下：Attention
c
＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))Attention
s
＝σ(Conv([AvgPool(F)，MaxPool(F)]))其中，Attention
c
，Att...

【专利技术属性】
技术研发人员：高珍，许靖宁，余荣杰，范鸿飞，孙萍，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人