当前位置: 首页 > 专利查询>燕山大学专利>正文

基于多层时空融合的轻量化驾驶人注意力预测方法和装置制造方法及图纸

技术编号:35914108 阅读:11 留言:0更新日期:2022-12-10 10:55
本发明专利技术提供了一种基于多层时空融合的轻量化驾驶人注意力预测方法和装置。该方法包括:获取视频帧提取并存储所述视频帧中连续帧间的多层级空间特征;通过在时间维度融合所述多层级空间特征来生成驾驶人的注意力显著图;基于所述驾驶人的注意力显著图来输出驾驶人注意力预测结果。通过轻量化骨干和轻量化3D模块的设计有效提升了驾驶场景中驾驶人注意力预测的速度。本发明专利技术还使用了多尺度策略提取动态图像在不同层级上的尺度信息,使得网络可以充分的利用动态场景的时间、空间和尺度信息,从而使得驾驶人注意力预测的精度更高,实现快速、精确的感知驾驶场景中潜在风险或提供决策所需关键信息,增强智能汽车的功能可理解性和鲁棒性。智能汽车的功能可理解性和鲁棒性。智能汽车的功能可理解性和鲁棒性。

【技术实现步骤摘要】
基于多层时空融合的轻量化驾驶人注意力预测方法和装置


[0001]本专利技术涉及智能交通
,具体涉及一种基于多层时空融合的轻量化驾驶人注意力预测方法和装置。

技术介绍

[0002]类人驾驶是提升汽车智能化程度的重要途径之一,其中识别和定位驾驶人的感兴趣目标和区域的驾驶人注意力预测技术,能够快速、精确地感知驾驶场景中潜在风险或提供决策所需关键信息,可有效增强智能汽车的功能可理解性和鲁棒性。驾驶人注意力的分布情况会影响车辆行驶安全性和稳定性,例如分心驾驶行为引发交通事故的几率远高于专注驾驶状态,但熟练的驾驶人可以快速识别交通场景中的各类要素及其运动状态,从而及时辨识直接或潜在的驾驶风险信息。因此,通过学习熟练驾驶人专注驾驶时的视觉特性,挖掘多种交通场景中驾驶人注意力的变化规律,实时检测和识别场景中重要目标和区域,增强驾驶辅助系统能效、提高智能化类人驾驶系统水平,从而提高驾驶安全性。
[0003]驾驶场景具有高度的时空特性,因此当前的驾驶人注意力预测方法聚焦于如何利用场景中的时空信息。例如使用光流法、语义图像等旁路网络,但这些额外的分支加剧了网络的计算量;使用LSTM在帧间传递时间信息的方法无法很好的捕捉到连续帧间更深层的耦合时空特征;使用3D卷积能够提取场景中更深层的时空耦合特征,但全3D卷积网络具有庞大的内存开销和更高的优化难度。
[0004]可以看出,提供一种兼顾预测速度和精度的驾驶人注意力预测方法是非常有必要的。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种基于多层时空融合的轻量化驾驶人注意力预测方法和装置。
[0006]为实现上述目的,本专利技术采用的技术方案如下:
[0007]本专利技术第一方面提供一种基于多层时空融合的轻量化驾驶人注意力预测方法,包括:获取视频帧提取并存储所述视频帧中连续帧间的多层级空间特征;通过在时间维度融合所述多层级空间特征来生成驾驶人的注意力显著图;基于所述驾驶人的注意力显著图来输出驾驶人注意力预测结果。
[0008]进一步的,在所述获取视频帧之后,还包括:对所述视频帧将的图像进行尺寸调整处理及标准化处理;所述尺寸调整处理为将所述视频帧的RGB图像的尺寸缩放至宽高为256
×
256;所述标准化处理为利用Z

Score标准化对经过尺寸调整处理后的所述RGB图像分别在R、G、B三个颜色通道上进行标准化处理,以生成符合标准正态分布的标准化图像数据,如公式(1)所示:
×
7的3D可分离卷积,用于增大感受野的窗口大小;所述第二卷积层为扩大通道宽度卷积核大小为1
×1×
1的标准3D卷积,膨胀比设置为2;所述第三卷积层为在时空融合过程中逐步缩减通道宽度的卷积核大小为1
×1×
1的标准3D卷积,膨胀比设置为0.5;所述三线性上采样层级联串联在每个所述轻量3D逆瓶颈层之后,用于将特征图的尺寸扩大2倍,并保持时间维长度不变;所述预测层为带有sigmoid激活函数的卷积核大小为1
×1×
1的标准2D卷积,用于将通道数缩减为1,所述Sigmoid函数如式(4)所示:
[0017]其中,所述Sigmoid函数的输出范围为(0,1),以使得所述预测层可将每一层的时空融合特征映射为概率分布进行输出,得到每个特征层级的显著性概率图,然后将其在通道上拼接并最终融合生成预测的显著性图,即驾驶人的注意力预测结果。
[0018]进一步的,所述时空融合层的每一层卷积后都加入批正则化和GELU激活函数,用于增加网络的非线性和寻优能力;所述GELU函数如公式(5)所示,以激活函数为所述多层时空融合网络模型训练过程中引入随机性,提高训练过程的鲁棒性;
[0019][0020]本专利技术第二方面提供一种基于多层时空融合的轻量化驾驶人注意力预测装置,包括:输入模块、编码器模块和解码器模块;所述输入模块,用于获取视频帧所述编码器模块,用于提取并存储所述视频帧中连续帧间的多层级空间特征;所述解码器模块,用于通过在时间维度融合所述多层级空间特征来生成驾驶人的注意力显著图。
[0021]本专利技术第三方面提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于多层时空融合的轻量化驾驶人注意力预测方法。
[0022]本专利技术第四方面提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于多层时空融合的轻量化驾驶人注意力预测方法。
[0023]相较于现有技术,本专利技术提供的技术方案至少具有以下优点:
[0024]本专利技术提供一种基于多层时空融合的轻量化驾驶人注意力预测方法、装置、电子设备及计算机可读存储介质,该预测方法通过轻量化骨干和轻量化3D模块的设计有效提升了驾驶场景中驾驶人注意力预测的速度。并且,本专利技术还使用了多尺度策略提取动态图像在不同层级上的尺度信息,使得网络可以充分的利用动态场景的时间、空间和尺度信息,从而使得驾驶人注意力预测的精度更高,实现快速、精确的感知驾驶场景中潜在风险或提供决策所需关键信息,有效增强智能汽车的功能可理解性和鲁棒性。
附图说明
[0025]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,除非有特别申明,附图中的图不构成比例限制。
[0026]图1为本专利技术基于多层时空融合的轻量化驾驶人注意力预测方法的流程示意框图;
[0027]图2为本专利技术设计的编码器

解码器网络结构示意图;
[0028]图3为本专利技术实施例提供的多种典型驾驶场景中驾驶人的注意力预测实例图。
具体实施方式
[0029]专利技术人发现,在智能交通领域使用3D卷积虽然能够提取场景中更深层的时空耦合特征,但全3D卷积网络存在具有庞大的内存开销和更高的优化难度的问题。
[0030]本专利技术针对以往方法在轻量化和实时性上存在的不足,基于层次化编码器

解码器架构设计2D

3D卷积时空融合网络,提出轻量化的驾驶人注意力预测方法。首先,以MobileNetV2作为编码器的骨干网络,提取当前帧在四个尺度上的多层次空间特征,将其存入记忆模块并与历史帧上提取的多层次特征在时间维度叠加,得到连续帧间的时空特征后传输至解码器。其次,基于层次化解码结构设计解码器,采用逆瓶颈3D卷积模块设计时空融合层,融合每个独立分支上的时空特征。最后,融合四个独立分支上捕获不同尺度信息的预测结果,获得驾驶人注意力预测值作为模型预测输出结果。本专利技术通过对动态驾驶场景连续帧间的时间、空间、尺度信息的有效利用,实现预测方法在速度和精度的有效平衡。
[0031]下面结合附图和实施例对本专利技术作进一步说明。
[0032]图1所示示意框图表明,本专利技术基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多层时空融合的轻量化驾驶人注意力预测方法,其特征在于,包括:获取视频帧提取并存储所述视频帧中连续帧间的多层级空间特征;通过在时间维度融合所述多层级空间特征来生成驾驶人的注意力显著图;基于所述驾驶人的注意力显著图来输出驾驶人注意力预测结果。2.根据权利要求1所述的基于多层时空融合的轻量化驾驶人注意力预测方法,其特征在于,在所述获取视频帧之后,还包括:对所述视频帧将的图像进行尺寸调整处理及标准化处理;所述尺寸调整处理为将所述视频帧的RGB图像的尺寸缩放至宽高为256
×
256;所述标准化处理为利用Z

Score标准化对经过尺寸调整处理后的所述RGB图像分别在R、G、B三个颜色通道上进行标准化处理,以生成符合标准正态分布的标准化图像数据,如公式(1)所示:其中,x
i
为对应颜色通道上的输入;为对应颜色通道标准化后的输出;
μi
为数据集训练集上对应颜色通道的图像亮度值均值,分别为{0.471,0.448,0.408};σ
i
为对应的图像亮度值标准差的平均值,分别为{0.234,0.239,0.242}。3.根据权利要求2所述的基于多层时空融合的轻量化驾驶人注意力预测方法,其特征在于,还包括:建立多层时空融合网络模型,并利用该模型对所述标准化图像数据进行注意力预测;所述多层时空融合网络模型包括编码器和解码器两个模块,所述编码器模块用于提取并存储所述视频帧中连续帧间的多层级空间特征,所述解码器模块用于通过在时间维度融合所述编码器模块输出的多层级空间特征来生成驾驶人的注意力显著图。4.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法,其特征在于,在所述建立多层时空融合网络模型之后,还包括:对所述多层时空融合网络模型进行训练;对所述多层时空融合网络模型进行训练包括利用KL散度作为监督层上的损失函数l
KL
(G,S)对网络进行优化;所述KL散度的计算公式如式(2)所示:其中,G∈[0,1]为驾驶人注意力的真实标签,S∈[0,1]为模型预测出的显著性值,i为每一点的像素值;当网络经过迭代优化至损失值l
KL
(G,S)收敛时,训练结束并保存当前的网络参数,然后使用所述网络和网络参数进行驾驶人的注意力预测。5.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法,其特征
在于,所述编码器模块包括特征提取骨干和记忆模块;其中,所述特征提取骨干用于使用轻量化网络MobileNetV2的全卷积层,并且提取当前输入帧从Level

1到Level

4四个层级上的特征作为骨干网络的输出;所述记忆模块用于在时间维度上拼接聚合当前帧I
t
编码后的特征和存储的历史帧V
t
={I
t

T+1
,

,I
t
‑1}中的特征得到时间长度为T的特征张量后传输给所述解码器模块;以及,在当前帧I
t
时刻模型执行完毕后,所述记忆模块去除I
t

T+1...

【专利技术属性】
技术研发人员:郭柏苍纪丙东金立生姚航许新亮王胤霖雒国凤
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1