基于深度学习的司机驾驶行为检测与识别方法技术

技术编号：29295723 阅读：11 留言：0更新日期：2021-07-17 00:53

本发明专利技术公开了一种基于深度学习的司机驾驶行为检测与识别方法，基于深度学习的司机驾驶行为检测与识别方法，包括：步骤1.获取司机在驾驶过程中的视频帧序列，所述视频帧序列包括司机在驾驶过程中的行为图像；步骤2.对所述视频帧序列进行预处理；步骤3.构建由ResNet

Driver behavior detection and recognition method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
faster RCNN)对司机的驾驶行为进行检测。
[0009]为了能够捕捉视频中的动作，双流法采用了RGB图像和光流(Optic flow) 作为模型的输入，在最后进行特征融合。双流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法，因此光流也包含的帧与帧之间的时序关系。TSN
[8](Temporal segment network)是基于一般的双流结构上改进的框架，能够提高对长视频的分类效果。文献[9]以VGG16为框架，采用RGB图像和光流并行输入的方式，并讨论了三种不同的特征融合策略，实现了对驾驶员抽烟、打电话等行为的识别检测。
[0010]CNN
‑
RNN是将卷积神经网络与递归神经网络进行级联。RNN能够用于时序预测，语音识别等领域，但是其存在梯度消失、内存溢出等问题，因此一般采用变种的LSTM(Long short
‑
term memory)或者GRU模型作为RNN模型用于司机驾驶行为检测。首先由CNN对输入的堆叠的视频帧提取空间特征，之后利用RNN模型进行时序建模，采用最后一个时刻的结果作为输出。为了能够提高CNN
‑
RNN网络的性能，提取出关键帧，常常在模型中加入注意力机制，采用权重的方式让LSTM网络获取和学习不同序列帧之间的重要性。文献[10] 首先利用MTCNN(Multi
‑
task cascaded convolutional networks...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的司机驾驶行为检测与识别方法，其特征在于，包括：步骤1.获取司机在驾驶过程中的视频帧序列，所述视频帧序列包括司机在驾驶过程中的行为图像；步骤2.对所述视频帧序列进行预处理；步骤3.构建由ResNet
‑
18、多层LSTM网络和全连接层级联组成的深度学习模型，利用所述深度学习模型对预处理后的视频帧序列进行检测和识别。2.如权利要求1所述的基于深度学习的司机驾驶行为检测与识别方法，其特征在于，所述ResNet
‑
18网络由五部分组成，第一部分由卷积网络和最大池化层组成；下面四部分为结构相同的卷积网络，每部分有四层卷积层，每部分的输出通道数依次翻倍；每两层卷积层的输入与输出进行直接相加，成为残差模块，所述残差模块的输入通道数与输出通道数应与该部分特征图的输入输出通道数分别对应。3.如权利要求2所述的基于深度学习的司机驾驶行为检测与识别方法，其特征在于，所述ResNet
‑
18网络用于提取所述视频帧序列的空间特征，在所述ResNet
‑
18网络的每个残差模块中都加入了卷积注意模块，所述卷积注意模块分别在通道上和空间上对特征图进行加权处理。4.如权利要求3所述的基于深度学习的司机驾驶行为检测与识别方法，其特征在于，所述通道卷积注意模块在通道上的输入是一个H
×
W
×
C的特征F，先对输入的每个通道特征分别进行全局平均池化和最大池化操作得到两个1
×1×
C的通道描述；接着，再将两个1
×1×
C的通道描述分别送入一个两层的卷积神经网络，第一层神经元个数为C/r，r为缩放因子，激活函数为ReLU，第二层神经元个数为C，然后将得到的两个特征相加经过Sigmoid非线性函数映射得到维度为C，值为0
‑
1之间的权重向量Mc，每个向量元素值反应了该通道的重要程度，将原来的特征F乘以权重系数得到缩放后的特征；Mc的计算公式为：其中，A为全局平均池化操作,M为最大池化操作,G为卷积操作,W0是第一层卷积层权值，第一层卷积操作后接ReLU激活函数，W1为第二层卷积操作权值,σ是Sigmoid函数。5.如权利要求3所述的基于深度学习的司机驾驶行为检测与识别方法，其特征在于，所述空间卷积注意模块在空间上的输入是一个H
×
W
×
C的特征F，对通道分别进行最大池化和平均池...

【专利技术属性】
技术研发人员：蔡沈健，倪成润，黄鹤，张强，沈纲祥，
申请(专利权)人：苏州乐达纳米科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人