一种面向助盲场景的拓扑语义地图构建方法技术

技术编号：37113195 阅读：19 留言：0更新日期：2023-04-01 05:10

本发明专利技术公开一种面向助盲场景的拓扑语义地图构建方法。首先，对采集的平面布局图进行基于图像处理算法的预处理；其次，采用基于聚类算法的非监督图像分割与OCR文字识别相融合的网络结构初步分割出平面布局图中通行区域的蒙版，并通过种子填充进行筛选；再次，拟合生成通行区域内的交叉口节点并检测提取房间节点与名称信息；最后，匹配节点生成连通关系，建立加权距离矩阵，结合Floyd算法计算输出平面布局图中端到端的最短路径，构建包含路径指引信息的拓扑语义地图。本发明专利技术应用于助盲场景中，建立陌生室内环境中平面布局图的快速解析机制，实现满足助盲导航要求的包含指引信息的拓扑语义地图构建。拓扑语义地图构建。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向助盲场景的拓扑语义地图构建方法

[0001]本专利技术涉及非监督学习与图像处理领域，具体是一种面向助盲场景的拓扑语义地图构建方法。

技术介绍

[0002]我国是世界上盲人最多的国家，随着老龄化的加剧，盲人数量进一步增加，而人们对于医疗服务水平的要求逐年提高。但目前我国专业护理人员紧缺、辅助器具落后、助盲设施不规范，远远无法满足盲人正常生活的需求。
[0003]现有助盲器具未得到大规模应用主要原因是传感器种类少、动态环境理解能力弱、室内场景复杂导致的定位导航效率低、听觉触觉传递信息维度有限、实时交互难，为了该机器人能够协助盲人安全、准确、快速地抵达目标位置，需要一种可靠的用于自主导航的拓扑语义地图构建技术。本专利技术涉及的拓扑语义地图构建方法能够使助盲机器人良好地解决上述问题。
[0004]针对陌生环境下的室内平面布局图，当前提出了一种端到端的拓扑语义地图构建方法。该方法通过神经网络结合OCR文字识别对输入的平面布局图进行语义分割，通过图像处理与路径规划算法结合生成的地图语义信息构建能够提供多维输出的拓扑语义地图。
[0005]常用的深度学习分割算法具有较高的分割精度但网络训练过程中需要大量的有标签数据集，这很难适用于无公开数据集、标注成本高、风格多变的室内平面布局图。而单纯的无监督学习分割算法虽然不需要很多标注过的数据集但功能在于全图分割，很难直接分割出指定语义区域。如何在少量无标签数据集的情况实现语义分割成了亟待解决的问题。
[0006]除此之外，处理平面布局图照片采集过程中...

【技术保护点】

【技术特征摘要】
1.一种面向助盲场景的拓扑语义地图构建方法，其特征在于，包括：步骤1：对摄像头采集的平面布局图图像进行检测、校正与提取的预处理操作；步骤2：采用基于神经网络聚类算法的非监督性图像分割网络与OCR文字识别网络相结合的方法，对预处理后的图像进行语义分割，提取出布局图中的可通行区域；步骤3：计算生成可通行区域中的交叉路口节点，通过阈值分割法提取房间节点，通过加权距离构造连通关系矩阵；采用PaddlePaddle平台的OCR文字识别网络检测房间名称后以加权距离为准则分别将房间名称、房间节点、最近交叉口节点进行匹配，最后结合Floyd算法生成任意两房间节点间的包含方向角度指引信息的规划路径。2.根据权利要求1所述的一种面向助盲场景的拓扑语义地图构建方法，其中：在步骤1中，具体包含以下步骤：步骤1.1：采用现有的矩形检测算法检测图像中包含地图区域边界的最大矩形框，得到该矩形框的四角坐标；步骤1.2：采用透视变换Perspective Transform以步骤1.1中的四角坐标为基准将地图区域校正为正视图视角平面并提取出来。3.根据权利要求1所述的一种面向助盲场景的拓扑语义地图构建方法，其核心在于：在步骤2中，具体包含以下步骤：步骤2.1：将步骤1处理后的图像保持纵横比不变，统一调整至长边为4700个像素，输入一个CNN网络中，该网络由两个组件构成，每个组件包含一个二维100通道的3
×
3卷积、一个ReLU激活函数、一个Batch Normalization功能块，提取输出特征层；步骤2.2：特征提取后通过一个1
×
1的卷积转换到一个q维聚类空间，其中q为初始聚类数量，取q＝100，并通过Batch Normalization把聚类空间的q维特征向量归一化；步骤2.3：使用argmax函数对每个像素点进行分类，根据此伪标签计算特征相似度损失和空间连续性损失，具体计算公式如下：Loss＝L
sim
(r
n
,c
n
)+μL
con
(r
n
)其中μ表示平衡两种损失的权重，μ取10；L
sim
(r
n
,c
n
)为特征相似性损失，表达式如下：征相似性损失，表达式如下：其中，i(i＝1,
…
,q)为聚类索引，n(n＝1,
…
,N)为像素，其中N为输入图像的像素总数，r
n
为归一化响应图，c
n
为经过argmax函数的归一化响应r
n
的聚类标签，r
n,i
为r
n
中的第i个元素；L
con
(r
n
)为空间连续性损失，其表达式如下：其中W、H代表输入图像的宽度和长度，r
ξ,η
代表在响应图r
n
中(ξ,η)像素位置的值；
进行反向传播，以随机梯度下降更新参数，输出全图像的分割结果，不同类别间标注为不同颜色；步骤2.4：将步骤2.1中统一大小的图像同时输入到OCR文字识别网络中检测出附有“通道”、“走廊”关键文字的相应坐标，将步骤2.3中输出的分割结果图灰度化，并存储灰度化后的图像在关键文字坐标处的灰度值，即对应类别所标记的颜色的灰度；步骤2.5：以步骤2.4中灰度化后的分割结果图为输入，遍历全图像素，将灰度值等于步骤2.4中存储的灰度值的像素赋值为255，即填充为白色，其余像素赋值为0，即填充为黑色，最后得到...

【专利技术属性】
技术研发人员：曹政才，孙伊扬，马哲，牟洪民，石胤斌，张港，夏霁，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人