物体识别方法及装置制造方法及图纸

技术编号:25225243 阅读:19 留言:0更新日期:2020-08-11 23:14
本申请提供物体识别方法及装置,所述方法包括:对待识别的图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。应用本申请实施例,可以实现提高物体识别的准确率。

【技术实现步骤摘要】
物体识别方法及装置
本申请涉及图像识别
,尤其涉及物体识别方法及装置。
技术介绍
物体识别技术,广泛应用于例如,在搜索场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体的信息展示;再例如,在购物场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体供用户选择购买。现有技术中,物体识别主要是通过将待识别图像进行区域划分,得到若干图像区域,每个待识别图像的区域划分结果构成一个图像区域集合;提取每个图像区域的特征,并根据预先通过机器学习算法构建的物体识别模型分别对每个图像区域进行物体识别,这一识别过程通常可以称之为标签推理。为了提高物体识别的准确率,一般可以通过以下方式:第一,通过挖掘图像区域中更有效的特征,来提高识别的准确率。例如使用深度学习(deep-learning)提取出的特征比尺度不变特征变换(Scale-invariantfeaturetransform,SIFT)提取的特征更加有效。这样,可以避免不是很有效的特征在识别过程中所引起的干扰。第二,通过空间视觉上下文信息来提高识别的准确率。所述空间识别上下文信息所基于的假设为:在相邻图像区域之间,属于同一个物体的可能性较大。例如,在识别当前图像区域i时,可以参考其相邻图像区域j,假设相邻图像区域j被标注为牛,那么当前图像区域i同样被标注为牛的可能性要比其它物体要高的多。这样的方式也被称为标签平滑。然而,这些方式虽然可以部分提高物体识别的准确率,但是整体上物体识别的准确率依然不是很理想,尤其是当图像中内容较为复杂,包含的物体较多的情况下,采用现有技术中物体识别方法的准确率经常无法满足应用需求。
技术实现思路
本申请提供一种物体识别方法及装置,以解决现有技术中存在的物体识别的准确率不高的问题。根据本申请实施例提供的一种物体识别方法,所述方法包括:对待识别的图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。可选的,所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。可选的,所述条件随机场模型为:其中,Z是预设的归一化常数;是图像区域的特征和被判断物体之间关系的点势函数;所述是基于空间视觉上下文信息的边势函数;是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是图像I被标注为物体p的标签值。可选的,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:其中,λk,αk是点势函数上的参数;是图像区域i被标注为物体k的标签值;是物体k出现在图像区域i中的概率值。可选的,所述基于空间视觉上下文信息的边势函数如下公式所示:其中,是该边势函数上的参数;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。可选的,所述基于语义上下文信息的边势函数如下公式所示:其中,εkp是该边势函数上的参数,是图像区域i被标注为物体k的标签值;是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;是物体p出现在图像I中的概率值。可选的,所述归一化常数通过最优化算法进行迭代求解。可选的,所述最优化算法包括投影梯度下降算法。可选的,所述在所述物体识别模型中对所输入的图像区域集合中每一个图像区域进行标签推理,具体包括:根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。可选的,所述标签推理通过迭代算法进行。可选的,所述迭代算法包括ICM(iteratedconditionalmode)算法。根据本申请实施例提供的一种物体识别装置,所述装置包括:划分单元,对待识别的图像进行区域划分,得到图像区域集合;输入单元,将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;识别单元,在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;标注单元,将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。可选的,所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。可选的,所述条件随机场模型为:其中,Z是预设的归一化常数;是图像区域的特征和被判断物体之间关系的点势函数;所述是基于空间视觉上下文信息的边势函数;是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是图像I被标注为物体p的标签值。可选的,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:其中,λk,αk是点势函数上的参数;是图像区域i被标注为物体k的标签值;是物体k出现在图像区域i中的概率值。可选的,所述基于空间视觉上下文信息的边势函数如下公式所示:其中,是该边势函数上的参数;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。可选的,所述基于语义上下文信息的边势函数如下公式所示:其中,εkp是该边势函数上的参数,是图像区域i被标注为物体k的标签值;是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;是物体p出现在图像I中的概率值。可选的,所述归一化常数通过最优化算法进行迭代求解。...

【技术保护点】
1.一种物体识别方法,所述方法包括:/n对待识别的图像进行区域划分,得到图像区域集合;/n将所述图像区域集合输入预设的条件随机场模型中;其中,所述条件随机场模型基于空间视觉上下文信息和语义上下文信息构建而成;/n在所述条件随机场模型中对所述图像区域集合中每一个图像区域进行标签推理;/n将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注于对应的图像区域;/n其中,所述条件随机场模型由图像区域的特征和被判断物体之间关系的点势函数

【技术特征摘要】
1.一种物体识别方法,所述方法包括:
对待识别的图像进行区域划分,得到图像区域集合;
将所述图像区域集合输入预设的条件随机场模型中;其中,所述条件随机场模型基于空间视觉上下文信息和语义上下文信息构建而成;
在所述条件随机场模型中对所述图像区域集合中每一个图像区域进行标签推理;
将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注于对应的图像区域;
其中,所述条件随机场模型由图像区域的特征和被判断物体之间关系的点势函数基于空间视觉上下文信息的边势函数基于语义上下文信息的边势函数构成。


2.根据权利要求1所述的方法,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:



其中,λk,αk是点势函数上的参数;是图像区域i被标注为物体k的标签值;是物体k出现在图像区域i中的概率值。


3.根据权利要求1所述的方法,所述基于空间视觉上下文信息的边势函数如下公式所示:



其中,是该边势函数上的参数;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。


4.根据权利要求1所述的方法,所述基于语义上下文信息的边势函数如下公式所示:



其中,εkp是该边势函数上的参数,是图像区域i被标注为物体k的标签值;是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;是物体p出现在图像I中的概率值。


5.根据权利要求1所述的方法,所述归一化常数通过最优化算法进行迭代求解。


6.根据权利要求5所述的方法,所述最优化算法包括投影梯度下降算法。


7.根据权利要求1所述的方法,所述在所述条件随机场模型中对所输入的图像区域集合中每一个图像区域进行标签推理,具体包括:
根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。


8.根据权利要求1所述的方法,所述标签推理通过迭代算法进行。


9.根据权利要求8所述的方法,所述迭代算法包括ICM算法。


10.一种物体识别装置,...

【专利技术属性】
技术研发人员:何凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1