当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于超像素分割的图像语义标注方法技术

技术编号:13898869 阅读:3806 留言:0更新日期:2016-10-25 10:36
本发明专利技术所提供了一种基于超像素分割的图像语义标注方法,首先将基于图像超像素分割提取的特征图块输入卷积神经网络,再将卷积神经网络训练得到的特征向量进行扩展和加权处理,最后构建条件随机场模型进行语义类别标注预测。由于采用本发明专利技术的技术方案,该方法将超像素块作为研究对象,简化了用于基于图像超像素分割提取的特征图块的复杂度,提高了语义标注的计算效率;另外,采用多层的超像素块进行语义分析,并将其标注结果进行综合,提高了语义标注的准确率和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及所述图像语义标注方法,特别涉及一种基于超像素分割和卷积神经网络的图像语义分析的

技术介绍
目前,机器人的应用从传统的工业制造领域扩展到军事、科学探索乃至医疗服务等各个方面。而这些新的应用领域中,机器人往往工作在非结构化的室外环境中。相较于信息单一的室内环境而言,室外的场景更加复杂多变且富有层次性,涉及的语义信息种类繁多,而且容易受到光线、视野等因素的影响。另外,机器人工作时没有按部就班的作业步骤,只具有较少的先验知识,于是对室外环境的感知和理解成为实现环境建模,行动规划等自主控制的必要前提。机器人有着与人类相似的感知系统,该感知系统得到的信息经过控制系统分析处理之后可以得到对外界环境的理解,进而实现与人类相似的分析和操作。在机器人感知的信息中,视觉信息由于探测范围宽,获取信息丰富的优点而得到广泛的使用。因此,机器人要完善地理解其所处的环境,就需要在视觉图片信息和表示图片内容之间建立联系,也就是对图像进行标注。在图像的语义分析研究中,常用的标注方法可以分为三大类:(1)利用机器学习方法(如决策树,神经网络等)在图像数据和语义词语之间建立对应联系;(2)采用模式分类的方法(如SVM,ELM等)实现图像标注;(3)利用概率转换模型(如贝叶斯网络、马尔科夫随机场等)在分割后的图像单元和语义词语之间建立联系。这些方法体现出了截然不同的研究思路,但都无法普适地解决图像标注问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于超像素分割的图像语义标注方法,为此,本专利技术采用以下技术方案:首先将基于图像超像素分割提取的特征图块输入卷积神经网络,再将卷积神经网络训练得到的特征向量进行扩展和加权处理,最后构建条件随机场模型进行语义类别标注预测。首先对图像作多层次超像素分割处理,对于分割到的每一个超像素块,提取一个正方形图像区域,将这一正方形的图像区域作为所述特征图块输入卷积神经网络,由于采用了多层次分割处理,可以提取多层次的特征图块。进一步的,所述特征图块包含了邻近超像素块的信息;所述特征图块选取为超像素块最大内切圆圆心向外扩展定长的正方形区域。进一步的,每一个所述特征图块经过神经网络训练之后,卷积神经网络输出的假设函数向量选取为超像素的特征向量。进一步的,对卷积神经网络训练得到的特征向量进行扩展,增加描述超像素块的尺度,轮廓的几何特征;利用支持向量机模型(Support Vector Machine,SVM)对扩展之后的特征向量进行了权重处理并输出标签概率向量,并将标签概率向量作为加权之后的超像素特征向量。进一步的,该方法采用了超像素块的面积、周长、最大内切圆心的坐标位置以及转动惯量用于特征扩展。进一步的,该方法使用分层分割方法对图像进行了多层次的超像素分割,得到多层次的超像素特征向量整合到像素级的条件随机场模型中,通过最大化后验边际概率来求解图像的标注结果。由于采用本专利技术的技术方案,该方法将超像素块作为研究对象,简化了用于基于图像超像素分割提取的特征图块的复杂度,提高了语义标注的计算效率;另外,采用多层的超像素块进行语义分析,并将其标注结果进行综合,提高了语义标注的准确率和鲁棒性。附图说明图1为多层次分割示意图。图2为特征图像块提取过程示意图。图3为利用卷积神经网络学习特征示意图,柱状图的纵坐标是数据库预定义的类别。图4为多层次超像素特征整合到像素层次示意图。图5为像素级条件随机场建模过程示意图。图6为语义标注方法实施过程示意图。具体实施方式如图所示,一种基于超像素分割的图像语义标注系统,所述语义标注系统 分为两大部分:第一部分超像素块特征提取部分。所述第一部分中涉及将多层次的超像素块转换成可以输入卷积神经网络作训练的特征图像块,并且对于每一个超像素块,都需要用超像素的几何特征来进行扩展,并且需要利用支持向量机来对超像素块的特征进行权重处理。所述的第二部分中,将多层次的超像素特征整合到像素层面上,建立像素级别的条件随机场模型,并通过极大后验边际的思路进行求解推理,对模型求解即可得到图像标注的结果。本专利技术所要解决的技术问题是提供一种基于超像素分割的图像语义标注方法。具体步骤如下:1.首先对图像作多层次超像素分割处理,对图片进行多层次超像素分割,该算法不仅能得到超像素块的边界,还能得到一个表示该边界存在可能性的概率,这样我们就可以通过调节边界概率的阈值来控制超像素分割的精细化程度,进而便于对超像素进行多层次的分割。多层次分割效果如图1所示。2.对于分割到的每一个超像素块,相应地提取一个正方形图像区域,将这一正方形的图像区域作为特征图块输入卷积神经网络,由于采用了多层次超像素分割处理,可以提取多层次的特征图块。对图像进行超像素分割时,得到的超像素块形状不规则,尺度不统一,不能直接输入卷积神经网络进行训练。另外,由于超像素内部的像素点的RGB通道值很接近,因此并没有必要提取所有的内部像素点,反而是超像素块外围的像素信息,即与自身相邻的超像素块信息更有助于不同超像素块的区分。因此,我们将不规则的超像素块蜕化为其内部包含的最大内切圆。另外由于CNN要求输入的图像大小一致,我们从超像素块最大内切圆的圆心向四周扩展得到一个确定尺寸的正方形图像块作为CNN的输入,该过程如图2所示。对于一幅尺寸为u0,v0的图片而言,特征图像块的尺寸nblock可以依公式1确定: n b l o c k = m a x ( u 0 , v 0 ) n u m ]]>其中num表示一张图片中分割的超像素块的数量,u0,v0是图片的宽度和高度。3.按照步骤2得到的特征图块一般会包含邻近超像素块的信息,将每一个所述特征图块输入神经网络训练,卷积神经网络输出的假设函数向量选取为超像素 的特征向量。另外,本文所使用的CNN可以表示如图3,图中英文翻译如下,fg obj.:前景物体,mntn:山,bldg:建筑物,water:水,grass:草地,road:路,tree:树,sky:天空。其中Conv1表示:第一个卷积神经网络,Conv2表示第二个卷积神经网络,Conv3表示第三个卷积神经网络,Conv4表示第四个卷积神经网络,Conv5表示第五个卷积神经网络。4.对卷积神经网络训练得到的特征向量进行扩展,增加描述超像素块的尺度,轮廓的几何特征的信息。利用卷积神经网络可以自动提取出每一个超像素块的特征向量,但是这种特征向量缺乏全局的信息。为此,我们引入了一些附加的超像素属性来对CNN得到的特征向量进行扩展。一般而言,超像素块的大小是进行超像素块分类时很重要的信息,本文中引入了面积和周长作为超像素块大小的量度。本文档来自技高网...

【技术保护点】
一种基于超像素分割的图像语义标注方法,其特征在于,首先将基于图像超像素分割提取的特征图块输入卷积神经网络,再将卷积神经网络训练得到的特征向量进行扩展和加权处理,最后构建条件随机场模型进行语义类别标注预测。

【技术特征摘要】
1. 一种基于超像素分割的图像语义标注方法,其特征在于,首先将基于图像超像素分割提取的特征图块输入卷积神经网络,再将卷积神经网络训练得到的特征向量进行扩展和加权处理,最后构建条件随机场模型进行语义类别标注预测。2.如权利要求1所述的一种基于超像素分割的图像语义标注方法,其特征在于,首先对图像作多层次超像素分割处理,对于分割到的每一个超像素块,提取一个正方形图像区域,将这一正方形的图像区域作为所述特征图块输入卷积神经网络,由于采用了多层次分割处理,可以提取多层次的特征图块。3.如权利要求2所述的一种基于超像素分割的图像语义标注方法,其特征在于:所述特征图块包含了邻近超像素块的信息;所述特征图块选取为超像素块最大内切圆圆心向外扩展定长的正方形区域。4.如权利要求1所述的一种基于超像素分割的图像语义标注方法,其特征在于,每一个所述特...

【专利技术属性】
技术研发人员:刘勇刘晓峰
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1