基于人工智能导盲的多模态融合障碍物检测方法及装置制造方法及图纸

技术编号:30652924 阅读:40 留言:0更新日期:2021-11-04 01:16
本发明专利技术公开了一种基于人工智能导盲的多模态融合障碍物检测方法,包括:通过红外相机和彩色相机分别负责获取场景的红外图像、彩色图像;获取的红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量;对生成多个预测向量进行分类和位置预测,本发明专利技术是在障碍物检测的过程中引入Transformer结构,更有效地实现多模态融合,引入Transformer

【技术实现步骤摘要】
基于人工智能导盲的多模态融合障碍物检测方法及装置


[0001]本专利技术涉及自然图像处理
,具体涉及一种基于人工智能导盲的多模态融合障碍物检测方法及装置。

技术介绍

[0002]根据中国残联的统计,目前我国至少500万盲人,并且随着人口老龄化加剧,盲人数量也在逐年增加。“为盲人导盲”一直是一个热点研究问题。在人工智能兴起之前,智能导盲一直是研究人员追求的导盲解决方案。随着本世纪人工智能开始爆发,这种追求逐渐成为现实。深度学习、卷积神经网络的出现使得计算机视觉在导盲上应用逐渐颠覆依赖超声波等避障的传统导盲技术,复杂难以处理障碍物检测问题得到了解决。
[0003]当前,最新的应用了基于深度目标检测的导盲技术大多数将采集的图像上传服务器,然后用有监督或无监督的方法训练的网络进行处理,在结合其他传感信息进行导盲。这类方法充分利用了深度学习处理复杂图像的优势,在一般的导盲情景下,有很不错的表现。实验表明,通过深度学习,导盲设备能对盲人生活场景中的常见物体,如垃圾桶,椅子,人等较为准确地识别。虽然这类方法表现不错,但是对于黑暗场景来说,检测结果却不尽人意。基于视觉的导盲技术多数是应用明亮光照下的彩色图像训练网络实现的,黑暗场景的明亮图像是很难获得的。一种解决方案是多模态的图像融合,即获取暗场景的红外图像和普通彩色图像,通过分别提取、融合红外图像和彩色图像特征获得较可靠检测结果。在黑暗场景下,彩色图像的特征的有效性是大打折扣的,不易识别物体轮廓,但是红外图像却能比较容易获得物体轮廓信息。神经网络提取两种图像的特征通过一定的方法融合,能大大提高神经网络的目标检测性能。现有多模态图像融合大多都是基于CNN的,CNN在融合多模态特征时,有时不能充分融合,因此引入一种Transformer结构,使不同模态图像特征能充分融合,从而提高检测精度。
[0004]目前,导盲设备的障碍物探测方法可分为传统无视觉、传统机器视觉和基于深度学习的机器视觉方法。
[0005](1)传统无视觉大多数只应用了超声、红外传感器,对障碍物的判断仅局限于方位距离,而且精度较低;
[0006](2)传统机器视觉主要利用事先写好的算法,对图像中的目标进行特征识别,这种方法迁移能力不强,不具有智能性;
[0007](3)基于深度学习的机器视觉方法通过数据集训练学习图像的特征,能够识别各种场景的图像,并进行目标检测,检测效果也十分不错,但是在暗场景下,彩色图像能获得物体信息很少,难以有效检测出障碍物。
[0008](4)基于CNN的多模态的障碍物检测方法能提取红外和彩色双模态图像特征进行融合从而较好检测障碍物,但是不能充分融合特征。

技术实现思路

[0009]本专利技术目的是在障碍物检测的过程中引入Transformer结构,更有效地实现多模态融合,引入Transformer block,充分融合红外和彩色图像的特征,提高低照度情景下的障碍物检测精度。
[0010]第一方面,本专利技术提供了一种基于人工智能导盲的多模态融合障碍物检测方法,包括:
[0011]通过红外相机和彩色相机分别负责获取场景的红外图像、彩色图像;
[0012]获取的红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;
[0013]将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量;
[0014]对生成多个预测向量进行分类和位置预测。
[0015]优选地,所述获取红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量具体包括将不同规格的彩色图像或者对红外图像通过缩放、padding、变形为227*227大小的图像,分别输入到VGG

16骨干网络中,截掉全连接层,即经过卷积池化后获得512个7*7的特征图。
[0016]优选地,所述将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量包括先将红外和彩色图像的所述第一多通道特征图和第二多通道特征图展平,都可得到512*49的特征图,再将特征图看做49个512维特征向量,这样切片能让像素之间充分相互注意,然后再将上述两模态向量拼接为98个长度为512维的特征向量。
[0017]优选地,所述对生成多个预测向量进行分类和位置预测具体包括通过集合损失函数与标签对多个预测向量做损失计算。
[0018]优选地,所述通过集合损失函数与标签对多个预测向量做损失计算之前,先用二分图匹配法还包括找到一个预测向量与标签的最佳匹配,然后利用交叉熵计算类别损失,回归方式计算位置损失加起来就是全局损失。
[0019]第二方面,本专利技术还提供了一种基于人工智能导盲的多模态融合障碍物检测装置,包括
[0020]图像获取模块,由红外相机和彩色相机两部分组成,其用于分别负责获取场景的红外图像、彩色图像;
[0021]特征提取模块,其用于获取红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;
[0022]特征融合模块,其用于将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量;
[0023]分类模块,其用于对生成多个预测向量进行分类和位置预测。
[0024]优选地,所述特征融合模块包括编码器和解码器。
[0025]优选地,所述编码器包括embedded tokens、正则化层、多头自注意力层和前馈神经网络层;所述解码器包括正则化层、多头自注意力层和前馈神经网络层。
[0026]本专利技术方法具有如下优点:
[0027]本专利技术是在障碍物检测的过程中引入Transformer结构,更有效地实现多模态融合,引入Transformer

block,充分融合红外和彩色图像的特征,提高低照度情景下的障碍物检测精度。
附图说明
[0028]图1为本专利技术提供的基于人工智能导盲的多模态融合障碍物检测方法流程图。
[0029]图2为本专利技术提供的基于人工智能导盲的多模态融合障碍物检测方法的传感器空间结构示意图。
[0030]图3为本专利技术提供的特征融合模块示意图。
具体实施方式
[0031]以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能导盲的多模态融合障碍物检测方法,其特征在于:包括通过红外相机和彩色相机分别负责获取场景的红外图像、彩色图像;获取的红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量;对生成多个预测向量进行分类和位置预测。2.根据权利要求1所述的一种基于人工智能导盲的多模态融合障碍物检测方法,其特征在于:所述获取红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量具体包括将不同规格的彩色图像或者对红外图像通过缩放、padding、变形为227*227大小的图像,分别输入到VGG

16骨干网络中,截掉全连接层,即经过卷积池化后获得512个7*7的特征图。3.根据权利要求1所述的一种基于人工智能导盲的多模态融合障碍物检测方法,其特征在于:所述将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量包括先将红外和彩色图像的所述第一多通道特征图和第二多通道特征图展平,都可得到512*49的特征图,再将特征图看做49个512维特征向量,这样切片能让像素之间充分相互注意,然后再将上述两模态向量拼接为98个长度为512维...

【专利技术属性】
技术研发人员:秦文健张旺
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1