对图像进行自动语义标注的方法、装置与计算机设备制造方法及图纸

技术编号：13680099 阅读：93 留言：0更新日期：2016-09-08 08:00

根据本发明专利技术的实施例，提供了对图像语义标注装置进行训练的方法，包括：a.提供多幅训练图像，各训练图像的语义和视觉属性描述已知；b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器；c.由所述定位器确定输入的每幅训练图像的至少一个局部区域，并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器；d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果；e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述，训练所述定位器和所述属性预测器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，尤其涉及一种对图像进行自动语义标注的方法、装置与包含该装置的计算机设备。
技术介绍
近十多年来，随着计算机网络技术的迅速发展、普及应用以及数据存储器成本的大幅下滑，多媒体数据库的使用变得越来越普遍。以图像、音乐、视频形式展现的多媒体信息无论在商业还是娱乐中都显现出了日益重要的作用。如何对如此大量的数据进行有效地管理和组织，并从中搜索出用户所需要的信息就成为非常重要的问题。对于多媒体数据，尤其是图像数据的浏览、搜索以及索引技术的研究已经有了很长时间的历史。如今，有关图像数据库和视觉信息搜索的话题已经变成了研究领域中最为活跃的一部分。要完成一次图像搜索，搜索引擎一般要求用户提供对于想要搜索的图像的描述。这些描述可以是一组关键字查询，或是一张案例图像。前一种的方式被称作为基于语义(标注)的图像搜索，后一种被称作为基于内容的图像搜索。为实现基于语义的图像搜索，需要对数据库中的图像进行语义标注。图像语义自动标注是指利用计算机视觉技术，让计算机对图像中的内容进行理解，从而给图像自动标注出文本语义的过程。也就是说，图像语义自动标注是使计算机对图像的语义进行准确地描述和理解的过程，其本质上就是建立图像和文本语义之间的关联。现有的图像语义标注方法主要有以下两种实现方式：第一种是由计算机在整幅图像上提取特征，并对图像进行分类识别，也即，将整幅图像作为分类器的输入。然而，很多近似类别的图
像的整体相似度很高，例如，不同型号的三厢轿车的图像可能只在若干细节上有区别，而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分，...
<a href="http://www.xjishu.com/zhuanli/55/CN105930841.html" title="对图像进行自动语义标注的方法、装置与计算机设备原文来自X技术">对图像进行自动语义标注的方法、装置与计算机设备</a>

【技术保护点】
一种对图像语义标注装置进行训练的方法，包括：a.提供多幅训练图像，各训练图像的语义和视觉属性描述已知；b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器；c.由所述定位器确定输入的每幅训练图像的至少一个局部区域，并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器；d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果；e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述，训练所述定位器和所述属性预测器。

【技术特征摘要】
1.一种对图像语义标注装置进行训练的方法，包括：a.提供多幅训练图像，各训练图像的语义和视觉属性描述已知；b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器；c.由所述定位器确定输入的每幅训练图像的至少一个局部区域，并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器；d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果；e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述，训练所述定位器和所述属性预测器。2.如权利要求1所述的方法，其中：所述多幅训练图像的语义为对应于同一粗粒度语义的不完全相同的细粒度语义。3.如权利要求2所述的方法，其中：所述粗粒度语义对应于一种粗粒度分类对象，不同的所述细粒度语义对应于属于该种粗粒度分类对象的不同的细粒度分类对象。4.如权利要求3所述的方法，其中：每个所述细粒度分类对象包含至少一个特征部位，所述视觉属性描述被根据其所对应的特征部位而划分为不同的组，所述方法包括：针对每个所述特征部位，重复所述步骤b至d直至收敛。5.根据权利要求1至4中任一项所述的方法，所述步骤a包括：对包含图像的网页进行挖掘，得到所述多幅训练图像、各训练图像的所述语义标签和所述视觉属性描述。6.根据权利要求1至5中任一项所述的方法，所述步骤e包括：针对每个所述局部区域，根据该局部区域的视觉属性预测结果和
\t相应训练图像的视觉属性描述，计算损失函数，用于对所述定位器和所述属性预测器的训练。7.根据权利要求6所述的方法，所述步骤e还包括：根据反向传播算法，计算所述定位器和所述属性预测器的梯度，确定或更新所述定位器和所述属性预测器的参数。8.根据权利要求4所述的方法，还包括：f.从所述多幅训练图像中选取至少一部分训练图像；g.由经过训练的所述定位器对选出的每幅训练图像进行处理，从而在该幅训练图像上定位该幅训练图像所对应的细粒度分类对象的至少一个特征部位；h.将为每幅选出的训练图像定位的特征部位、该训练图像的已知的语义标签输入到所述图像语义标注装置的分类器，对所述分类器进行训练。9.根据权利要求8所述的方法，所述步骤h包括：针对每幅选出的训练图像，计算定位出的每个特征部位的卷积特征；根据计算出的每个特征部位的卷积特征，为该幅训练图像生成向量；由支持向量机来根据所生成的向量来训练所述分类器。10.根据权利要求9所述的方法，所述步骤h还包括：针对每幅选出的训练图像，计算该训练图像的整体的卷积特征；所述为该幅图像生成向量的步骤还包括：根据计算出的该幅图像的整体的卷积特征，以及计算出的该幅图像的每个特征部位的卷积特征，为该训练图像生成所述向量。11.一种图像语义标注方法，包括：I.根据权利要求1至10中任一项所述的方法对图像语义标注装置进行训练；II.由所述经过训练的图像语义标注装置对待标注图像进行语义标注。12.根据权利要求11所述的方法，所述步骤II包括：将所述待标注图像输入到所述经过训练的图像语义标注装置的定位器，由所述定位器定位所述待标注图像所对应的细粒度对象的至少一个特征部位；将定位出的所述待标注图像所对应的细粒度对象的所述至少一个特征部位输入到所述经过训练的语义标注装置的分类器，由所述分类器根据所述至少一个特征部位生成所述待标注图像的语义。13.根据权利要求12所述的方法，其中，所述分类器为所述待标注图像生成的语义包括细粒度语义。14.一种能够对自身进行训练的图像语义标注装置，包括：第一单元，配置为提供多幅训练图像，各训练图像的语义和视觉属性描述已知；定位器，配...

【专利技术属性】
技术研发人员：刘霄，王江，文石磊，丁二锐，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人