一种基于区域潜在语义特征的自然场景图像分类方法技术

技术编号:2925168 阅读:465 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于区域潜在语义特征的自然场景图像分类方法,目的是利用图像的区域潜在语义信息和该信息在空间的分布规律来进行自然场景图像分类。技术方案是先建立自然场景图像分类代表集;然后对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表;再在自然场景图像分类代表集上生成图像区域潜在语义模型;接着对任意一幅图像提取图像区域潜在语义特征;最后生成自然场景分类模型,根据自然场景分类模型对图像的区域潜在语义特征进行分类。本发明专利技术引入了区域潜在语义特征,不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息,相比于其他方法能得到更高的准确率,且不需要人工标注,自动化程度高。

【技术实现步骤摘要】

本专利技术涉及多媒体信息处理
里关于图像分类的方法,尤其是一种通过提取 图像的区域潜在语义特征来实现对自然场景图像进行分类的方法,是一种综合考虑了图 像区域所包含的信息以及这些区域信息在图像的空间分布来进行自然场景图像分类的方 法。
技术介绍
互联网的快速发展、信息存储与传输技术的发展以及数码设备的普及带来图像数据 的爆炸性增长,这就对如何进行大量图像数据的检索与狡U览提出了新的技术挑战。面对 数量如此巨大的图像数据,传统的依靠人工来对图像进行分类的管理方式因为需要耗费 大量的人力资源而变得不可行。因此,如何利用计算机将图像自动分类到一些预定义的 类别中就成为其中的一个关键问题。由于自然场景图像在人们的曰常生活中十分常见, 数量也十分巨大,因此对于自然场景图像的分类问题的研究就成为了当前计算机视觉和 多媒体信息管理领域的一个热点问题。传统的自然场景图像分类方法通常使用色彩、纹理和形状等图像底层物理特征来直 接与各种分类方法相结合,从而实现对图像的分类。采用底层物理特征的一个主要问题 在于底层物理特征往往只反映图像在物理感知层次上的特点,而不是人们所关注的认知 层面的内容。近年来,为了克服底层物理特征与人类认知语义之间的鸿沟,使用中间语 义特征来对自然场景建模的方法得到了广泛的关注。Oliva和Torralba使用一组视觉感知 属性来描述场景的主要空间结构,他们定义了自然度、宽阔度、粗糙度、伸展度和险峻 度等视觉感知属性,通过分析底层特征来得到这些视觉感知属性。Vogel等人则首先将局 部图像区域分类到一些预定义的语义概念中,然后根据这些语义概念在图像中出现的频率来描述图像。但在这些方法中,为了得到预定义的语义概念模型,往往需要大量的人 工标注样本。为了减少生成中间语义所需的人工标注工作, 一些采用文本主题模型的方 法被用于图像场景分类,这些方法主要以Lifeifei、 Quelhas以及Bosch提出的方法为代 表。这些方法通常先提取图像中的尺度不变特征(Scale Invariant Feature Transform , SIFT),然后将图像的SIFT特征通过聚类生成一个视觉词汇表来表示聚类中心。在生成 了视觉词汇表后将图像中的SIFT特征映射成一个个的视觉词汇,从而釆用文本中最常见 的词袋特征(Bag of Word, BOW)来表示图像,最后应用文本分类中的概率潜在语义分 析方法(Probabilistic Latent Semantic Analysis, PLSA)和潜在Dirichlet分析方法(Latent Dirichlet Analysis, LDA)等主题分析方法来找出图像最可能属于的主题或者潜在语义, 从而完成图像的场景分类。这类方法能够很大地减少对人工标注的需求,但是它们通常 是根据图像中视觉词汇出现的总体情况来进行场景分类,它们既没有考虑视觉词汇在空 间的分布特点,也无法利用图像中区域语义构成的上下文信息来进行场景分类,因此在 图像视觉词汇总体分布规律不显著的情况下往往不能得到好的分类结果。
技术实现思路
本专利技术要解决的技术问题是如何综合利用图像区域所包含的潜在语义信息和这些区 域包含的潜在语义信息在空间的分布规律来进行自然场景图像分类。本专利技术提供一种基 于区域潜在语义特征的自然场景图像分类方法,首先通过对图像进行空间金字塔分块来 生成图像区域,然后使用概率潜在语义分析方法来得到区域潜在语义特征(即每个分块 区域包含每一个潜在语义的概率值),最后利用区域潜在语义特征来构建相应的分类器模 型,从而将自然场景图像自动分类到预定义的类别。本专利技术通过综合利用图像的区域语 义信息和区域信息在图像上的空间分布情况,提高了分类的准确性和智能性,减少了人 工参与的程度,能够满足图像管理和检索的需求。本专利技术的技术方案如下第一步,建立自然场景图像分类代表集。方法是1.1、 根据使用需要定义N个自然场景图像类别,类别编号为1 N, N为自然数。1.2、 对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表。1.3、 将所有N类的自然场景图像分类代表作为自然场景图像分类代表集。 第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表。方法是:2.1、 对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样, 得到每幅图像的网格采样点SP,方法是对输入图像Ig按MxM像素大小的网格进行采 样,其中M为2的整数次幂,建议M取8或16;2.2、 对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征 在采样点SP周围PxP (P为自然数,取值范围为8-20,建议P取16)像素大小的区域上 计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量;2.3、 使用《均值聚类方法对自然场景图像分类代表集上的所有网格采样点的SIFT 特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这《个聚类中心的取值和 其对应的视觉词汇编号即构成通用视觉词汇表。/C为自然数, 一般取值为500-1000,建 议〖取为800。第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔 分块以提取每个金字塔分块区域的BOW描述,并在自然场景图像分类代表集中所有图 像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型(即潜在语义出现时的 视觉词汇出现的后验概率),具体包括以下步骤3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的 SIFT特征映射到对应的视觉词汇计算图像Ig中每个网格采样点的SIFT特征与通用视 觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;3.2、 对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行Z (1S丄S4)层空间金字塔分块给定任意图像Ig和分层数L,分别在丄个层次上对图像进行均匀分块,其中第/ U^/S丄)层的图像分块是对图像进行2"x2"'的均匀分块, 这样对一幅图像进行£层空间金字塔分块一共可以得到0 = (^-1)/3个大小和空间位置 各不相同的图像区域。例如采用3层空间金子塔分块, 一幅图像通过3层空间金字塔分 块可以得到21个不同大小和不同空间位置的图像区域。3.3、 对3.2中得到的每个图像分块区域分别采用BOW (Bag of Word, BOW)描述 生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块 区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具 体方法如下3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域 中的网格采样点;3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表 中每个视觉词汇在图像区域中出现的次数。3.3.2用向量表示图像区域的bow描述,力表示视觉词汇表中第;t个视觉词汇在图像区域中出现的次数,1SA《《,《为第二步中生成的通用视觉词汇表的 大小。3.4、 对自然场景图像分类代表集中本文档来自技高网
...

【技术保护点】
一种基于区域潜在语义特征的自然场景图像分类方法,其特征在于包括以下步骤:第一步,建立自然场景图像分类代表集,方法是:1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数;1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表;1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集;第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征即尺度不变特征提取,生成通用视觉词汇表,方法是:2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是:对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂;2.2、对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征:在采样点SP周围P×P像素大小的区域上计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量,P为自然数,取值范围为8-20;2.3、使用K均值聚类算法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表,K为自然数,取值为500-1000;第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW描述,并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型即潜在语义出现时的视觉词汇出现的后验概率,具体包括以下步骤:3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇:计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L层空间金字塔分块:给定任意图像Ig和分层数L,分别在L个层次上对图像进行均匀分块,其中第l层的图像分块是对图像进行2↑[l-1]×2↑[l-1]的均匀分块,对一幅图像进行L层空间金字塔分块一共得到Q=(4↑[L]-1)/3个大小和空间位置各不相同的图像区域,1≤L≤4,1≤l≤L;3.3、对每个图像分块区域分...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴玲达谢毓湘曾璞杨征栾悉道文军陈丹雯
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1