本发明专利技术公开了一种实现地形和目标检测的盲人辅助眼镜,利用一个彩色相机采集图像,利用小型处理器对采集的图像进行处理,输出图像中每个像素的地形或者目标类型,得到语义分割图像,再通过语义分割图像确定需要检测地形和目标的区域。本发明专利技术能够同时检测地面、人行道、楼梯、水面等地形,行人、车辆等目标,具有统一性高,实时性高,室内外适应性高,不需要特定假设的优点,可以很好地满足视障人士出行的要求。
【技术实现步骤摘要】
一种实现地形和目标检测的盲人辅助眼镜
本专利技术属于模式识别技术、图像处理技术、计算机视觉
,涉及一种实现地形和目标检测的盲人辅助眼镜。
技术介绍
视觉信息是人类识别周围环境的最重要信息来源,人类获得的信息80%左右是从视觉系统输入的。根据世界卫生组织统计,全世界有2.53亿视觉障碍人士。视障人士损失了正常的视觉,对颜色、形状的理解很困难。现在,他们中的许多人使用白手杖或导盲犬协助自己的日常生活。白手杖不足以在旅行期间解决所有的困难。导盲犬可以引导视障人士以避免在道路上行走时的危险,但是因为训练导盲犬需要很大的成本,它们不能用于所有视觉障碍者。因此,手杖、导盲犬等传统工具无法为他们出行提供充分的协助。自从各种电子出行辅助(ETA)设备开发以来,已被视为一种辅助视障者在不同情况下出行的有效的方法。为了帮助用户找到通路,许多辅助系统部署深度相机来检测可及的路径和障碍,也有很多辅助系统针对盲人辅助实现了楼梯检测、行人检测、车辆检测等。但是同时运行这些检测方法一方面增加了延迟,一方面也加剧了计算资源的负担。因此,一个能够将各种地形和目标统一在一个框架下同时完成检测,并且能够实现实时运行和快速输出的方法被迫切需要。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种实现地形和目标检测的盲人辅助眼镜。本专利技术采用如下技术方案:一种实现地形和目标检测的盲人辅助眼镜,包括眼镜本体,嵌入式安装在其中一个镜腿内的小型处理器和电池模块,固定在镜框上方的一个相机,以及设置在镜腿尾部的耳机模块;所述小型处理器中存储有包含有一个训练好的神经网络;相机、骨传导耳机分别与小型处理器相连,电池模块与小型处理器相连,相机实时地采集周围场景的彩色图像,将彩色图像Color输入预先训练的神经网络模型,得到语义分割图像Semantics,识别出彩色图像中每个像素的地形或者目标类型,即完成对待检测区域的地形和目标检测;小型处理器将检测结果转化为声音信号,并传给耳机模块,告知用户。所述的神经网络通过以下方法训练得到:从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号。m≥10000。所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识。以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,所述基于神经网络的语义分割模型中每一层网络如下表所示,得到预先训练的神经网络模型。层号类型输出特征图的维数输出特征图的分辨率1下采样层16320×2402下采样层64160×1203-7一维分解瓶颈层64160×1208下采样层12880×609一维分解瓶颈层(扩张卷积率2)12880×6010一维分解瓶颈层(扩张卷积率4)12880×6011一维分解瓶颈层(扩张卷积率8)12880×6012一维分解瓶颈层(扩张卷积率16)12880×6013一维分解瓶颈层(扩张卷积率2)12880×6014一维分解瓶颈层(扩张卷积率4)12880×6015一维分解瓶颈层(扩张卷积率8)12880×6016一维分解瓶颈层(扩张卷积率2)12880×6017a第16层输出的原始特征图12880×6017b第16层输出的原始特征图的池化和卷积3280×6017c第16层输出的原始特征图的池化和卷积3240×3017d第16层输出的原始特征图的池化和卷积3220×1517e第16层输出的原始特征图的池化和卷积3210×817f第17a-17e层的上采样和级联25680×6018卷积层地形和目标类别数80×6019上采样层地形和目标类别数640×480将待检测的彩色图像Color输入神经网络模型后,第19层得到的输出特征图即为各个类别的概率图,通过argmax函数即可得到语义分割图像Semantics。进一步地,所述一维分解瓶颈层通过使用3×1的卷积核和1×3的卷积核进行交替卷积,并采用线性整流函数ReLU作为激活函数,最后通过残差式联结,形成一个整体的一维分解瓶颈层。进一步地,从9到16层的一维分解瓶颈层中的卷积均采用扩张卷积完成,扩展卷积率分别为2,4,8,16,2,4,8,2。进一步地,所述下采样层通过使用3×3的卷积核输出的与经过最大池化的特征图,进行级联,输出下采样的特征图。进一步地,所述上采样层采用双线性插值完成。进一步地,大型的语义分割数据集可以为:ADE20K数据集:http://groups.csail.mit.edu/vision/datasets/ADE20K/Cityscapes数据集:https://www.cityscapes-dataset.com/Pascal数据集:https://www.cs.stanford.edu/~roozbeh/pascal-context/COCO10K数据集:https://github.com/nightrome/cocostuffMapillary数据集:https://www.mapillary.com/dataset/vistas进一步地,该方法还包括:根据语义分割图像Semantics,获得待检测区域中的特定目标的检测结果,所述特定目标为:数据集标识的物体。本专利技术的优势主要在于:1.统一性高。本专利技术由于采用基于神经网络的语义分割方法,可以同时获取图像中每个像素的地形或目标类别,相比采用单个检测器的集合,可以将多种地形或目标的检测统一在语义分割下一起来完成,利用语义分割图像,可以同时完成地面、人行道、楼梯、水面等地形检测,也可以完成行人、车辆、障碍物等目标检测。2.实时性高。一方面,本专利技术由于将多种地形或目标的检测统一在语义分割下一起来完成,不需要逐次执行单个地形或目标的检测,减少了延迟;另一方面,本专利技术由于采用一维分解瓶颈层的堆叠来完成特征图的提取,最大化的节省了达到相同精度需要的残差层数目,因此可以支持高实时性的语义分割和检测。3.室内外适应性高。本专利技术由于采用大型的语义分割数据集,包括了室内室外的场景,可以同时支持室内室外的语义分割和地形目标检测。4.不需要特定假设。本专利技术由于采用基于神经网络的语义分割方法,可以直接从原始数据中提取特征,不需要基于特定假设完成检测。附图说明图1为辅助眼镜的结构示意图;图2为模块连接示意图;图3为彩色图像;图4为语义分割图像,其中,label1~label7为语义标号;图5为地形或目标区域检测结果图像;图6为一维分解瓶颈层示意图;图7为下采样层示意图。图中,相机1、小型处理器2、电池模块3、耳机模块4。具体实施方式本专利技术涉及一种实现地形和目标检测的盲人辅助眼镜,主要是通过一神经网络模型实现检测,所述的神经网络模型通过以下方法训练得到:从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元本文档来自技高网...
【技术保护点】
1.一种实现地形和目标检测的盲人辅助眼镜,其特征在于,包括眼镜本体,嵌入式安装在其中一个镜腿内的小型处理器和电池模块,固定在镜框上方的一个相机,以及设置在镜腿尾部的耳机模块;所述小型处理器中存储有包含有一个训练好的神经网络;相机、骨传导耳机分别与小型处理器相连,电池模块与小型处理器相连,相机实时地采集周围场景的彩色图像,将彩色图像Color输入预先训练的神经网络模型,得到语义分割图像Semantics,识别出彩色图像中每个像素的地形或者目标类型,即完成对待检测区域的地形和目标检测;小型处理器将检测结果转化为声音信号,并传给耳机模块,告知用户。所述的神经网络通过以下方法训练得到:从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号。m≥10000。所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识。以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,所述基于神经网络的语义分割模型中每一层网络如下表所示,得到预先训练的神经网络模型。...
【技术特征摘要】
1.一种实现地形和目标检测的盲人辅助眼镜,其特征在于,包括眼镜本体,嵌入式安装在其中一个镜腿内的小型处理器和电池模块,固定在镜框上方的一个相机,以及设置在镜腿尾部的耳机模块;所述小型处理器中存储有包含有一个训练好的神经网络;相机、骨传导耳机分别与小型处理器相连,电池模块与小型处理器相连,相机实时地采集周围场景的彩色图像,将彩色图像Color输入预先训练的神经网络模型,得到语义分割图像Semantics,识别出彩色图像中每个像素的地形或者目标类型,即完成对待检测区域的地形和目标检测;小型处理器将检测结果转化为声音信号,并传给耳机模块,告知用户。所述的神经网络通过以下方法训练得到:从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号。m≥10000。所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识。以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,所述基于神经网络的语义分割模型中每一层网络如下表所示,得到预先训练的神经网络模型。将待检测的彩色图像Color输入神经网络模型后,第19层得到的输出特征图即为各个类别的概率图,通过argmax函数即可得到语义分割图像Semantics。2.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:杨恺伦,程瑞琦,汪凯巍,
申请(专利权)人:杭州视氪科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。