一种面向助盲场景的拓扑语义地图构建方法技术

技术编号:37113195 阅读:19 留言:0更新日期:2023-04-01 05:10
本发明专利技术公开一种面向助盲场景的拓扑语义地图构建方法。首先,对采集的平面布局图进行基于图像处理算法的预处理;其次,采用基于聚类算法的非监督图像分割与OCR文字识别相融合的网络结构初步分割出平面布局图中通行区域的蒙版,并通过种子填充进行筛选;再次,拟合生成通行区域内的交叉口节点并检测提取房间节点与名称信息;最后,匹配节点生成连通关系,建立加权距离矩阵,结合Floyd算法计算输出平面布局图中端到端的最短路径,构建包含路径指引信息的拓扑语义地图。本发明专利技术应用于助盲场景中,建立陌生室内环境中平面布局图的快速解析机制,实现满足助盲导航要求的包含指引信息的拓扑语义地图构建。拓扑语义地图构建。

【技术实现步骤摘要】
一种面向助盲场景的拓扑语义地图构建方法


[0001]本专利技术涉及非监督学习与图像处理领域,具体是一种面向助盲场景的拓扑语义地图构建方法。

技术介绍

[0002]我国是世界上盲人最多的国家,随着老龄化的加剧,盲人数量进一步增加,而人们对于医疗服务水平的要求逐年提高。但目前我国专业护理人员紧缺、辅助器具落后、助盲设施不规范,远远无法满足盲人正常生活的需求。
[0003]现有助盲器具未得到大规模应用主要原因是传感器种类少、动态环境理解能力弱、室内场景复杂导致的定位导航效率低、听觉触觉传递信息维度有限、实时交互难,为了该机器人能够协助盲人安全、准确、快速地抵达目标位置,需要一种可靠的用于自主导航的拓扑语义地图构建技术。本专利技术涉及的拓扑语义地图构建方法能够使助盲机器人良好地解决上述问题。
[0004]针对陌生环境下的室内平面布局图,当前提出了一种端到端的拓扑语义地图构建方法。该方法通过神经网络结合OCR文字识别对输入的平面布局图进行语义分割,通过图像处理与路径规划算法结合生成的地图语义信息构建能够提供多维输出的拓扑语义地图。
[0005]常用的深度学习分割算法具有较高的分割精度但网络训练过程中需要大量的有标签数据集,这很难适用于无公开数据集、标注成本高、风格多变的室内平面布局图。而单纯的无监督学习分割算法虽然不需要很多标注过的数据集但功能在于全图分割,很难直接分割出指定语义区域。如何在少量无标签数据集的情况实现语义分割成了亟待解决的问题。
[0006]除此之外,处理平面布局图照片采集过程中出现的由于光照、拍摄角度导致的图像倾斜与畸变,检测创建通行节点与连通关系,计算输出多维导航指引信息都是构建拓扑语义地图实现助盲导航的关键问题。

技术实现思路

[0007]以下给出一个或多个方面的主要概述以应对这些方面的基本理解。此概述不能将所有构想的方面进行详述,其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出更加详细的描述。
[0008]本专利技术的目的在于解决上述问题,提供了一种面向助盲场景的拓扑语义地图构建方法。该方法通过无监督的图像分割网络与OCR文字识别网络之间的信息共享,完成通行区域的语义分割,结合图像处理相关算法实现平面布局图数字化并分析数字化区域之间的连通关系,进而形成陌生室内环境平面布局图的快速解析机制,实现满足助盲导航要求的拓扑语义地图构建。
[0009]本专利技术提出一种面向助盲场景的拓扑语义地图构建方法,包括:
[0010]步骤一:对摄像头采集的平面布局图照片进行基于图像处理算法的预处理,检测、
校正、提取后作为分割网络的输入。
[0011]步骤二:采用基于神经网络聚类算法的非监督性图像分割网络与OCR文字识别网络相结合的方法,对预处理后的图像进行语义分割,提取出布局图中的可通行区域。
[0012]步骤三:检测可通行区域中的房间节点并计算交叉路口的中心节点,生成节点连通关系矩阵,结合Floyd路径规划算法计算输出起始节点到终止节点的包含方向指引信息的最短路径。
[0013]根据本专利技术的一种面向助盲场景的拓扑语义地图构建方法,在步骤一中,包括以下进一步步骤:
[0014]步骤1:采用现有的矩形检测算法,检测、筛选包含图像中地图区域边界的最大矩形框,得到该矩形框的四角坐标;
[0015]步骤2:基于步骤1所生成矩形框的四个坐标,采用透视变换Perspective Transform将地图区域图片的原始视角转换为正视图视角平面并提取出来。
[0016]根据本专利技术的一种面向助盲场景的拓扑语义地图构建方法,在步骤二中,包括以下进一步步骤:
[0017]步骤1:将步骤一提取出的图像保持纵横比不变,统一调整至长边为4700个像素,使用CNN网络进行特征提取,该CNN网络由M个卷积组件构成,每一个组件包括一个二维的通道数为p的3
×
3卷积、ReLU激活函数、BatchNormalization功能块,其中M=2,p=100;
[0018]步骤2:特征提取后通过一个1
×
1的卷积转换到一个q维的聚类空间,其中q为初始聚类数量,取q=100,沿着该空间的q个轴,通过Batch Normalization功能块把这个q维特征向量归一化;
[0019]步骤3:使用argmax函数确定每个像素的标签是q维中的哪一维,根据这个确定的伪标签计算特征相似度损失和空间连续性损失,具体计算公式如下:Loss=L
sim
(r
n
,c
n
)+μL
con
(r
n
)其中μ表示平衡两种损失的权重,μ取10。L
sim
(r
n
,c
n
)为特征相似性损失,其表达式如下:)为特征相似性损失,其表达式如下:其中,i(i=1,

,q)为聚类索引,n(n=1,

,N)为像素,其中N为输入图像的像素总数,r
n
为归一化响应图,c
n
为经过argmax函数的归一化响应r
n
的聚类标签,r
n,i
为r
n
中的第i个元素。L
con
(r
m
)为空间连续性损失,其表达式如下:其中W、H代表输入图像的宽度和长度,r
ξ,η
代表在响应图r
n
中(ξ,η)像素位置的值。进行反向传播,使用随机梯度下降更新参数,输出全图像分割结果,不同类别间标
注不同颜色。
[0020]步骤4:将步骤1中统一大小的图像同时输入到OCR文字识别网络中检测出附有“通道”、“走廊”关键文字的相应坐标;
[0021]步骤5:通过该坐标将相应关键词匹配到灰度化后的步骤3生成的图像分割结果中,存储匹配到的地图区域中的灰度值,即对应类别所标记的颜色的灰度值;
[0022]步骤6:以步骤5中灰度化后的分割结果图为输入,遍历全图像素,将灰度值符合步骤5中存储灰度值的像素填充为白色,即灰度值为255,其余像素填充为黑色,即灰度值为0,最后得到通行区域的蒙版。
[0023]根据本专利技术的一种面向助盲场景的拓扑语义地图构建方法,在步骤三中,包括以下进一步步骤:
[0024]步骤1:对通行区域的蒙版先采用5
×
5的矩形结构内核进行腐蚀操作,迭代次数为1,目的在于消除大部分噪点;随后采用40
×
40的矩形结构内核进行膨胀操作,迭代次数为1,目的在于消除地图中文字部分的镂空区域;
[0025]步骤2:取蒙版中左上角第一个灰度值为255的像素点作为种子点独立入栈并标记,判断当前种子点的四个邻域中是否有符合灰度值为255的像素点,如果有,将该点存入代表第一个闭合区域的列表List_1中,入栈作为更新的种子点并进行标记;如果没有,弹出栈顶种子点继续进行判断本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向助盲场景的拓扑语义地图构建方法,其特征在于,包括:步骤1:对摄像头采集的平面布局图图像进行检测、校正与提取的预处理操作;步骤2:采用基于神经网络聚类算法的非监督性图像分割网络与OCR文字识别网络相结合的方法,对预处理后的图像进行语义分割,提取出布局图中的可通行区域;步骤3:计算生成可通行区域中的交叉路口节点,通过阈值分割法提取房间节点,通过加权距离构造连通关系矩阵;采用PaddlePaddle平台的OCR文字识别网络检测房间名称后以加权距离为准则分别将房间名称、房间节点、最近交叉口节点进行匹配,最后结合Floyd算法生成任意两房间节点间的包含方向角度指引信息的规划路径。2.根据权利要求1所述的一种面向助盲场景的拓扑语义地图构建方法,其中:在步骤1中,具体包含以下步骤:步骤1.1:采用现有的矩形检测算法检测图像中包含地图区域边界的最大矩形框,得到该矩形框的四角坐标;步骤1.2:采用透视变换Perspective Transform以步骤1.1中的四角坐标为基准将地图区域校正为正视图视角平面并提取出来。3.根据权利要求1所述的一种面向助盲场景的拓扑语义地图构建方法,其核心在于:在步骤2中,具体包含以下步骤:步骤2.1:将步骤1处理后的图像保持纵横比不变,统一调整至长边为4700个像素,输入一个CNN网络中,该网络由两个组件构成,每个组件包含一个二维100通道的3
×
3卷积、一个ReLU激活函数、一个Batch Normalization功能块,提取输出特征层;步骤2.2:特征提取后通过一个1
×
1的卷积转换到一个q维聚类空间,其中q为初始聚类数量,取q=100,并通过Batch Normalization把聚类空间的q维特征向量归一化;步骤2.3:使用argmax函数对每个像素点进行分类,根据此伪标签计算特征相似度损失和空间连续性损失,具体计算公式如下:Loss=L
sim
(r
n
,c
n
)+μL
con
(r
n
)其中μ表示平衡两种损失的权重,μ取10;L
sim
(r
n
,c
n
)为特征相似性损失,表达式如下:征相似性损失,表达式如下:其中,i(i=1,

,q)为聚类索引,n(n=1,

,N)为像素,其中N为输入图像的像素总数,r
n
为归一化响应图,c
n
为经过argmax函数的归一化响应r
n
的聚类标签,r
n,i
为r
n
中的第i个元素;L
con
(r
n
)为空间连续性损失,其表达式如下:其中W、H代表输入图像的宽度和长度,r
ξ,η
代表在响应图r
n
中(ξ,η)像素位置的值;
进行反向传播,以随机梯度下降更新参数,输出全图像的分割结果,不同类别间标注为不同颜色;步骤2.4:将步骤2.1中统一大小的图像同时输入到OCR文字识别网络中检测出附有“通道”、“走廊”关键文字的相应坐标,将步骤2.3中输出的分割结果图灰度化,并存储灰度化后的图像在关键文字坐标处的灰度值,即对应类别所标记的颜色的灰度;步骤2.5:以步骤2.4中灰度化后的分割结果图为输入,遍历全图像素,将灰度值等于步骤2.4中存储的灰度值的像素赋值为255,即填充为白色,其余像素赋值为0,即填充为黑色,最后得到...

【专利技术属性】
技术研发人员:曹政才孙伊扬马哲牟洪民石胤斌张港夏霁
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1