对图像进行自动语义标注的方法、装置与计算机设备制造方法及图纸

技术编号:13680099 阅读:84 留言:0更新日期:2016-09-08 08:00
根据本发明专利技术的实施例,提供了对图像语义标注装置进行训练的方法,包括:a.提供多幅训练图像,各训练图像的语义和视觉属性描述已知;b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器;c.由所述定位器确定输入的每幅训练图像的至少一个局部区域,并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器;d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果;e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,尤其涉及一种对图像进行自动语义标注的方法、装置与包含该装置的计算机设备。
技术介绍
近十多年来,随着计算机网络技术的迅速发展、普及应用以及数据存储器成本的大幅下滑,多媒体数据库的使用变得越来越普遍。以图像、音乐、视频形式展现的多媒体信息无论在商业还是娱乐中都显现出了日益重要的作用。如何对如此大量的数据进行有效地管理和组织,并从中搜索出用户所需要的信息就成为非常重要的问题。对于多媒体数据,尤其是图像数据的浏览、搜索以及索引技术的研究已经有了很长时间的历史。如今,有关图像数据库和视觉信息搜索的话题已经变成了研究领域中最为活跃的一部分。要完成一次图像搜索,搜索引擎一般要求用户提供对于想要搜索的图像的描述。这些描述可以是一组关键字查询,或是一张案例图像。前一种的方式被称作为基于语义(标注)的图像搜索,后一种被称作为基于内容的图像搜索。为实现基于语义的图像搜索,需要对数据库中的图像进行语义标注。图像语义自动标注是指利用计算机视觉技术,让计算机对图像中的内容进行理解,从而给图像自动标注出文本语义的过程。也就是说,图像语义自动标注是使计算机对图像的语义进行准确地描述和理解的过程,其本质上就是建立图像和文本语义之间的关联。现有的图像语义标注方法主要有以下两种实现方式:第一种是由计算机在整幅图像上提取特征,并对图像进行分类识别,也即,将整幅图像作为分类器的输入。然而,很多近似类别的图
像的整体相似度很高,例如,不同型号的三厢轿车的图像可能只在若干细节上有区别,而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分,语义标注效果差。第二种则是由人工确定图像的显著性区域,这些显著性区域可以体现不同的细粒度图像之间的差别,例如,不同品牌的车型的车标,不同品种的猫的眼睛。而后,再对这些显著性区域提取特征,进行细粒度的图像语义标注。但是,由于图像数据库中的图像的数量巨大,要为每幅图像人工确定其显著性区域,显然会消耗极大的人力资源,限制了这种解决方案的可行性。只有解决现有技术中的上述问题,才能使图像语义的自动标注更进一步发展。
技术实现思路
本专利技术的目的是提供一种新的图像语义标注方法和装置,以解决现有技术中的上述问题。具体地,根据本专利技术的第一方面的实施例,提供了一种对图像语义标注装置进行训练的方法,包括:a.提供多幅训练图像,各训练图像的语义和视觉属性描述已知;b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器;c.由所述定位器确定输入的每幅训练图像的至少一个局部区域,并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器;d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果;e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。具体地,所述多幅训练图像的语义为对应于同一粗粒度语义的不完全相同的细粒度语义。具体地,所述粗粒度语义对应于一种粗粒度分类对象,不同的所述细粒度语义对应于属于该种粗粒度分类对象的不同的细粒度分类对象。具体地,每个所述细粒度分类对象包含至少一个特征部位,所述视觉属性描述被根据其所对应的特征部位而划分为不同的组,所述方法包括:针对每个所述特征部位,重复所述步骤a至d直至收敛。具体地,所述步骤a包括:对包含图像的网页进行挖掘,得到所述多幅训练图像、各训练图像的所述语义标签和所述视觉属性描述。具体地,所述步骤e包括:针对每个所述局部区域,根据该局部区域的视觉属性预测结果和相应训练图像的视觉属性描述,计算损失函数,用于对所述定位器和所述属性预测器的训练。具体地,所述步骤e还包括:根据反向传播算法,计算所述定位器和所述属性预测器的梯度,确定或更新所述定位器和所述属性预测器的参数。具体地,该方法还包括:f.从所述多幅训练图像中选取至少一部分训练图像;g.由经过训练的所述定位器对选出的每幅训练图像进行处理,从而在该幅训练图像上定位该幅训练图像所对应的细粒度分类对象的至少一个特征部位;h.将为每幅选出的训练图像定位的特征部位、该训练图像的已知的语义标签输入到所述图像语义标注装置的分类器,对所述分类器进行训练。具体地,所述步骤h包括:针对每幅选出的训练图像,计算定位出的每个特征部位的卷积特征;根据计算出的每个特征部位的卷积特征,为该幅训练图像生成向量;由支持向量机来根据所生成的向量来训练所述分类器。具体地,所述步骤h还包括:针对每幅选出的训练图像,计算该训练图像的整体的卷积特征;所述为该幅图像生成向量的步骤还包括:根据计算出的该幅图像的整体的卷积特征,以及计算出的该幅图像的每个特征部位的卷积特征,为该训练图像生成所述向量。根据本专利技术的第二方面的实施例,提供了一种图像语义标注方法,包括:I.根据权利要求1至10中任一项所述的方法对图像语义标注装置进行训练;II.由所述经过训练的图像语义标注装置对待标注图像进行语义标注。具体地,所述步骤II包括:将所述待标注图像输入到所述经过训练的图像语义标注装置的定位器,由所述定位器定位所述待标注图像所对应的细粒度对象的至少一个特征部位;将定位出的所述待标注图像所对应的细粒度对象的所述至少一个特征部位输入到所述经过训练的语义标注装置的分类器,由所述分类器根据所述至少一个特征部位生成所述待标注图像的语义。具体地,所述分类器为所述待标注图像生成的语义包括细粒度语义。根据本专利技术的第三方面的实施例,提供了一种能够对自身进行训练的图像语义标注装置,包括:第一单元,配置为提供多幅训练图像,各训练图像的语义和视觉属性描述已知;定位器,配置为将所述多幅训练图像的至少一部分作为输入,确定输入的每幅训练图像的至少一个局部区域;属性预测器,配置为将所述定位器确定的每个局部区域作为输入,得到输入的各局部区域的视觉属性预测结果;第二单元,配置为根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。具体地,所述多幅训练图像的语义为对应于同一粗粒度语义的不完全相同的细粒度语义。具体地,所述粗粒度语义对应于一种粗粒度分类对象,不同的所述细粒度语义对应于属于该种粗粒度分类对象的不同的细粒度分类对象。具体地,每个所述细粒度分类对象包含至少一个特征部位,所述视觉属性描述被根据其所对应的特征部位而划分为不同的组,所述第一单元、定位器、属性预测器及第二单元还配置为:针对每个所述特征部位,执行各自的操作直至收敛。具体地,所述第一单元还配置为:对包含图像的网页进行挖掘,得到所述多幅训练图像、各训练图像的语义标签和所述视觉属性描述。具体地,所述第二单元还配置为:针对每个所述局部区域,根据该局部区域的视觉属性预测结果和相应训练图像的视觉属性描述,计
算损失函数,用于对所述定位器和所述属性预测器的训练。具体地,所述第二单元还配置为:根据反向传播算法,计算所述定位器和所述属性预测器的梯度,确定或更新所述定位器和所述属性预测器的参数。具体地,所述图像语义标注装置还包括:第三单元,配置为从所述多幅训练图像中选取至少一部分训练图像;所述定位器还配置为,在经过上述训练后,对所述第三单元选出的每幅训练图像进行处理,从而在该幅训练图像上定位该幅训练对象本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105930841.html" title="对图像进行自动语义标注的方法、装置与计算机设备原文来自X技术">对图像进行自动语义标注的方法、装置与计算机设备</a>

【技术保护点】
一种对图像语义标注装置进行训练的方法,包括:a.提供多幅训练图像,各训练图像的语义和视觉属性描述已知;b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器;c.由所述定位器确定输入的每幅训练图像的至少一个局部区域,并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器;d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果;e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。

【技术特征摘要】
1.一种对图像语义标注装置进行训练的方法,包括:a.提供多幅训练图像,各训练图像的语义和视觉属性描述已知;b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器;c.由所述定位器确定输入的每幅训练图像的至少一个局部区域,并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器;d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果;e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。2.如权利要求1所述的方法,其中:所述多幅训练图像的语义为对应于同一粗粒度语义的不完全相同的细粒度语义。3.如权利要求2所述的方法,其中:所述粗粒度语义对应于一种粗粒度分类对象,不同的所述细粒度语义对应于属于该种粗粒度分类对象的不同的细粒度分类对象。4.如权利要求3所述的方法,其中:每个所述细粒度分类对象包含至少一个特征部位,所述视觉属性描述被根据其所对应的特征部位而划分为不同的组,所述方法包括:针对每个所述特征部位,重复所述步骤b至d直至收敛。5.根据权利要求1至4中任一项所述的方法,所述步骤a包括:对包含图像的网页进行挖掘,得到所述多幅训练图像、各训练图像的所述语义标签和所述视觉属性描述。6.根据权利要求1至5中任一项所述的方法,所述步骤e包括:针对每个所述局部区域,根据该局部区域的视觉属性预测结果和
\t相应训练图像的视觉属性描述,计算损失函数,用于对所述定位器和所述属性预测器的训练。7.根据权利要求6所述的方法,所述步骤e还包括:根据反向传播算法,计算所述定位器和所述属性预测器的梯度,确定或更新所述定位器和所述属性预测器的参数。8.根据权利要求4所述的方法,还包括:f.从所述多幅训练图像中选取至少一部分训练图像;g.由经过训练的所述定位器对选出的每幅训练图像进行处理,从而在该幅训练图像上定位该幅训练图像所对应的细粒度分类对象的至少一个特征部位;h.将为每幅选出的训练图像定位的特征部位、该训练图像的已知的语义标签输入到所述图像语义标注装置的分类器,对所述分类器进行训练。9.根据权利要求8所述的方法,所述步骤h包括:针对每幅选出的训练图像,计算定位出的每个特征部位的卷积特征;根据计算出的每个特征部位的卷积特征,为该幅训练图像生成向量;由支持向量机来根据所生成的向量来训练所述分类器。10.根据权利要求9所述的方法,所述步骤h还包括:针对每幅选出的训练图像,计算该训练图像的整体的卷积特征;所述为该幅图像生成向量的步骤还包括:根据计算出的该幅图像的整体的卷积特征,以及计算出的该幅图像的每个特征部位的卷积特征,为该训练图像生成所述向量。11.一种图像语义标注方法,包括:I.根据权利要求1至10中任一项所述的方法对图像语义标注装置进行训练;II.由所述经过训练的图像语义标注装置对待标注图像进行语义标注。12.根据权利要求11所述的方法,所述步骤II包括:将所述待标注图像输入到所述经过训练的图像语义标注装置的定位器,由所述定位器定位所述待标注图像所对应的细粒度对象的至少一个特征部位;将定位出的所述待标注图像所对应的细粒度对象的所述至少一个特征部位输入到所述经过训练的语义标注装置的分类器,由所述分类器根据所述至少一个特征部位生成所述待标注图像的语义。13.根据权利要求12所述的方法,其中,所述分类器为所述待标注图像生成的语义包括细粒度语义。14.一种能够对自身进行训练的图像语义标注装置,包括:第一单元,配置为提供多幅训练图像,各训练图像的语义和视觉属性描述已知;定位器,配...

【专利技术属性】
技术研发人员:刘霄王江文石磊丁二锐
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1