System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态融合的自动驾驶安全性辅助方法和系统技术方案_技高网

基于多模态融合的自动驾驶安全性辅助方法和系统技术方案

技术编号:44412374 阅读:1 留言:0更新日期:2025-02-25 10:26
本发明专利技术涉及基于多模态融合的自动驾驶安全性辅助方法和系统,属于自动驾驶领域。该系统由多模态传感器、预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元构成。该方法包含以下步骤:S1:采集视觉图像数据和非视觉图像数据;S2:对视觉图像数据和非视觉图像数据进行预处理;S3:利用特征编码器进行特征提取;S4:利用时序合并模块进行关键事件划分:S5:利用上下文注意力模块对进行特征融合;S6:将融合特征输入分类模块中,预测行人行为类型;S7:将预测行人行为类型结果存储,并反馈给汽车终端系统。本发明专利技术方法能够有效地识别和聚合与行人行为相关的关键事件,提高行人行为意图预测的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及基于多模态融合的自动驾驶安全性辅助方法和系统,属于自动驾驶领域,尤其涉及一种基于多模态融合学习的自动驾驶安全性辅助。


技术介绍

1、随着自动驾驶技术的快速发展,车辆在复杂的道路环境中与其他交通参与者的交互变得越来越频繁和重要。行人作为道路上最脆弱的参与者,其安全性一直是自动驾驶和辅助驾驶系统关注的焦点。在现实世界中,准确预测行人是否有过街的意图对于保障道路交通安全具有重要意义。自动驾驶车辆需要具备提前感知和理解行人意图的能力,以便在行人做出过街行为之前,及时采取适当的措施,如减速、停车或变道等。然而,行人的行为往往受到多种因素的影响,如交通标志、交通信号灯、道路状况、天气条件、行人自身状态、自车速度以及其他交通参与者的行为等。这些因素的复杂性和多样性给行人过街意图的准确预测带来了巨大的挑战。

2、传统的行人意图预测方法主要依赖于对行人运动轨迹、姿态和面部表情的分析。然而,这些方法在处理高冗余的视频帧时,往往难以有效地捕捉与行人行为相关的关键事件,导致预测性能不佳。此外,在复杂的交通环境中,仅依靠单一的视觉信息难以全面理解行人的意图。因此,亟需一种能够有效整合多模态信息、突出行人行为关键动态变化、并能在时间维度上捕捉行人意图的方法,以提高行人过街意图预测的准确性和可靠性。


技术实现思路

1、本专利技术的目的在于克服以上现有技术的不足,提供一种基于多模态融合的自动驾驶安全性辅助方法和系统,用于辅助判断行人过街意图。该方法意图通过基于多模态融合的自动驾驶安全性辅助系统的传感器实时获取时序数据的视觉图像数据和非视觉数据,将其引入时序合并模块(temporal merging module,简称tmm)和上下文注意力模块(contextual attention block,简称cab),进而实现有效地识别和聚合与行人行为相关的关键事件,从而提高行人行为意图预测的准确性和效率。

2、为达到上述目的,本专利技术提供如下技术方案:

3、基于多模态融合的自动驾驶安全性辅助系统,其特征在于,由多模态传感器、预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元构成;所述的多模态传感器包含视觉图像传感器和非视觉图像传感器,分别按照周期采集视觉图像数据和非视觉图像数据;所述的预处理单元分别与数据存储单元、特征编码器相连,用于对视觉图像数据和非视觉图像数据的预处理;所述的特征编码器包含视觉编码器(visual encoder)、非视觉编码器(non-visual encoder);所述的视觉编码器和非视觉编码器分别采用深度学习网络实现对应的预处理后的视觉图像数据和非视觉图像数据的特征提取;所述的时序合并模块与特征编码器相连,基于深度学习网络实现,用于事件划分;所述的上下文注意力模块与时序合并模块相连,基于深度学习网络实现,用于实现事件的特征融合;所述的分类模块与上下文注意力模块相连,基于分类器实现,用于划分行人行为类型;所述的数据存储单元分别与多模态传感器、分类模块和输出单元相连,用于数据存储;所述的输出单元为通讯模块,用于将行人行为类型反馈给汽车终端系统。

4、进一步,所述的视觉编码器采用的是预训练的video-vit-base模型,对视觉特征进行提取;所述的非视觉编码器采用的是基于video-vit-small模型架构的transformer模型,对非视觉特征进行提取。

5、可优选的是,所述的时序合并模块基于knn(k-nearest neighbor)网络实现。

6、进一步,所述的多模态传感器、预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元都布置在车载端。

7、可优选的是,所述的多模态传感器布置在车载端;所述的预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元布置在云端服务器上。

8、基于多模态融合的自动驾驶安全性辅助方法,包括如下步骤:

9、s1:利用车载多模态传感器按照周期采集视觉图像数据和非视觉图像数据,并按照时序存储到数据存储单元;

10、s2:预处理单元对数据存储单元中的视觉图像数据和非视觉图像数据进行预处理;

11、s3:利用特征编码器对预处理后的视觉图像数据和非视觉图像数据分别进行特征提取,得到对视觉图像特征和非视觉图像特征;

12、s4:利用时序合并模块分别对视觉图像特征和非视觉图像特征进行关键事件划分,得到对视觉图像事件和非视觉图像事件;

13、s5:利用上下文注意力模块对对视觉图像事件和非视觉图像事件进行特征融合,得到融合特征;

14、s6:将融合特征输入分类模块中,预测行人行为类型;

15、s7:将预测行人行为类型结果存储到数据存储单元中,并利用输出单元反馈给汽车终端系统。

16、进一步,步骤s2所述的预处理包含以下步骤:

17、s201:识别当前时刻视觉图像数据是否有行人,如果没有,则等待下一时刻的视觉图像数据,否则继续执行以下步骤;

18、s202:将视觉图像数据中的行人进行图像分割,对每个目标行人的局部图像进行裁剪和尺寸调整,并进行归一化处理;

19、s203:按照视觉图像数据的时间段,利用全连接层进行嵌入映射,将不同的非视觉图像数据进行维度对齐,然后将它们拼接到一起。

20、步骤s3中所述特征编码器分为视觉编码器和非视觉编码器,将视觉编码器得到t帧视觉图像特征记作将非视觉编码器得到t帧非视觉图像特征记作

21、进一步,所述的步骤s4基于密度峰值聚类算法,具体为:

22、s401:利用knn计算任意一帧的视觉图像特征和非视觉图像特征的局部密度;

23、具体的,视觉图像特征第t帧的视觉图像特征it对应的局部密度ρt为:非视觉图像特征第t帧的非视觉图像特征jt对应的局部密度为:其中,knn(it,fv)表示在fv中不包括自身it的k个最近邻,knn(jt,fnv)与之类似;k为正整数。

24、s402:计算任意一帧的视觉图像特征和非视觉图像特征到任何具有更高密度的视觉图像特征和非视觉图像特征的最短距离;

25、具体的,从第t帧的视觉图像特征it到任何具有更高密度的视觉图像特征的最短距离δt为:

26、其中,m∈[1,t]为索引;

27、类似的,从第t帧的非视觉图像特征jt到任何具有更高密度的非视觉图像特征的最短距离为:

28、其中,m∈[1,t]为索引。

29、s403:分别从局部密度较高、最短距离较大的视觉图像特征和非视觉图像特征中选出聚类中心,对其余的视觉图像特征和非视觉图像特征进行聚类处理,得到的聚类集合分别为视觉图像事件ε={e1,e2,...,em}和非视觉图像事件其中,m和为对应事件的总数。

30、进一步,步骤s5具体为:<本文档来自技高网...

【技术保护点】

1.基于多模态融合的自动驾驶安全性辅助系统,其特征在于,由多模态传感器(1)、预处理单元(2)、特征编码器(3)、时序合并模块(4)、上下文注意力模块(5)、分类模块(6)、数据存储单元(7)、输出单元(8)构成;所述的多模态传感器(1)包含视觉图像传感器(11)和非视觉图像传感器(12),分别按照周期采集视觉图像数据和非视觉图像数据;所述的预处理单元(2)分别与数据存储单元(7)、特征编码器(3)相连,用于对视觉图像数据和非视觉图像数据的预处理;所述的特征编码器(3)包含视觉编码器(31)、非视觉编码器(32);所述的视觉编码器(31)和非视觉编码器(32)分别采用深度学习网络实现对应的预处理后的视觉图像数据和非视觉图像数据的特征提取;所述的时序合并模块(4)与特征编码器(3)相连,基于深度学习网络实现,用于事件划分;所述的上下文注意力模块(5)与时序合并模块(4)相连,基于深度学习网络实现,用于实现事件的特征融合;所述的分类模块(6)与上下文注意力模块(5)相连,基于分类器实现,用于划分行人行为类型;所述的数据存储单元(7)分别与多模态传感器(1)、分类模块(6)和输出单元(8)相连,用于数据存储;所述的输出单元(8)为通讯模块,用于将行人行为类型反馈给汽车终端系统。

2.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的视觉编码器(31)采用的是预训练的Video-VIT-base模型,对视觉特征进行提取;所述的非视觉编码器(32)采用的是基于Video-VIT-small模型架构的Transformer模型,对非视觉特征进行提取。

3.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的时序合并模块(4)基于KNN网络实现。

4.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的多模态传感器、预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元都布置在车载端。

5.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的多模态传感器布置在车载端;所述的预处理单元、特征编码器、时序合并模块、上下文注意力模块、分类模块、数据存储单元、输出单元布置在云端服务器上。

6.应用于权利要求1~5任意一项所述的基于多模态融合的自动驾驶安全性辅助方法,其特征在于,包含以下步骤:

7.根据权利要求6所述的基于多模态融合的自动驾驶安全性辅助方法,其特征在于,步骤S2所述的预处理包含以下步骤:

8.根据权利要求6所述的基于多模态融合的自动驾驶安全性辅助方法,其特征在于,所述的步骤S4基于密度峰值聚类算法,具体为:

9.根据权利要求6所述的基于多模态融合的自动驾驶安全性辅助方法,其特征在于,所述的步骤S5具体为:

10.根据权利要求6所述的基于多模态融合的自动驾驶安全性辅助方法,其特征在于,所述的分类模块(6)为三层MLP全连接层;其对应的训练损失函数为交叉熵损失函数。

...

【技术特征摘要】

1.基于多模态融合的自动驾驶安全性辅助系统,其特征在于,由多模态传感器(1)、预处理单元(2)、特征编码器(3)、时序合并模块(4)、上下文注意力模块(5)、分类模块(6)、数据存储单元(7)、输出单元(8)构成;所述的多模态传感器(1)包含视觉图像传感器(11)和非视觉图像传感器(12),分别按照周期采集视觉图像数据和非视觉图像数据;所述的预处理单元(2)分别与数据存储单元(7)、特征编码器(3)相连,用于对视觉图像数据和非视觉图像数据的预处理;所述的特征编码器(3)包含视觉编码器(31)、非视觉编码器(32);所述的视觉编码器(31)和非视觉编码器(32)分别采用深度学习网络实现对应的预处理后的视觉图像数据和非视觉图像数据的特征提取;所述的时序合并模块(4)与特征编码器(3)相连,基于深度学习网络实现,用于事件划分;所述的上下文注意力模块(5)与时序合并模块(4)相连,基于深度学习网络实现,用于实现事件的特征融合;所述的分类模块(6)与上下文注意力模块(5)相连,基于分类器实现,用于划分行人行为类型;所述的数据存储单元(7)分别与多模态传感器(1)、分类模块(6)和输出单元(8)相连,用于数据存储;所述的输出单元(8)为通讯模块,用于将行人行为类型反馈给汽车终端系统。

2.根据权利要求1所述的基于多模态融合的自动驾驶安全性辅助系统,其特征在于,所述的视觉编码器(31)采用的是预训练的video-vit-base模型,对视觉特征进行提取;所述的非视觉编码器(32)采用的是基于video-...

【专利技术属性】
技术研发人员:陈琳梁宏斌尚明生龚治岗
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1