当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于Hadoop平台的图像分类方法技术

技术编号:14146971 阅读:120 留言:0更新日期:2016-12-11 03:58
本发明专利技术涉及一种基于Hadoop平台的图像分类方法,包括:提取图像Sift特征,生成训练图像的SIFT特征库;利用Sift特征生成BoVW视觉词典;提取BoVW模型的词典后,将经过特征提取的训练图像与此词典对照,把训练图像表示为基于词典的直方图向量形式;将训练图像的直方图向量作为随机森林分类器的训练输入,在Hadoop上设计分类器的并行化生成;针对需要分类的测试图像,将其依次进行特征提取、直方图向量化操作后,输入分类器,在Hadoop平台上进行并行分类。本发明专利技术不仅具有较好的分类准确度,同时有效减少分类时间,可以良好地应用于大规模图像分类场景。

【技术实现步骤摘要】

本专利技术涉及图像分类技术,具体涉及一种分布式图像分类方法。
技术介绍
一、图像分类方面图像分类技术利用计算机对图像进行自动化分析与分类,是目标检测与识别、图像检索等领域的基础。图像分类一般由图像特征的提取和基于特征的分类两个方面组成。在特征提取方面,目前大多关注图像的局部特征,使用尺度不变特征变换(Scale Invariant Feature Transform,SIFT)、加速稳健特征(Speeded Up Robust Features,SURF)等算法提取出局部特征向量。视觉词袋(Bag of Visual Words,BoVW)模型在此基础上更进一步,将提取出的大量特征向量进行聚类,生成视觉词典,将图像根据词典映射成词典单词的直方图形式,这样既减少了特征向量的数量,也使图像向量更具表达力。在基于特征的分类方面,目前多使用机器学习的方法进行。主流的分类器有支持向量机(Support Vector Machine,SVM)分类器,它在解决小样本、非线性以及高维分类中表现出良好的性质。另外如Adaboost分类器,作为一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。但是,当待处理的图像规模较大时,其海量样本、高维向量的特点对这些传统分类算法所依赖的文件系统和计算架构提出了很大的挑战。随机森林算法将随机理论引入决策树模型,利用若干决策树建立组合分类器,为图像分类提供了新的思路,是生物信息学、数据挖掘领域热门方向之一。然而,当数据量特别大时,随机森林分类器也面临着分类时耗过长的问题。二、云计算平台方面Hadoop是当前主流的开源分布式云计算平台,常用于Web访问日志分析、反向索引构建、文档聚类、基于统计的机器翻译和生成整个搜索引擎的索引等大规模数据处理工作。Hadoop平台由Apache基金会开发,很多国内外知名的互联网公司基于Hadoop架构布置内部应用,比如淘宝、eBay和百度等。也有一些公司对设计大数据处理平台,提供完整的商业大数据解决方案,如微软的Azure,中国移动的BigCloude等。借助大数据平台强大的分布式计算能力,海量数据的存储和计算得以更好地实现。因此,如何结合大数据处理平台,移植海量图像的处理过程,是一个很有意义的课题。
技术实现思路
本专利技术的目的是,提供一种适于Hadoop平台的分布式图像分类方法,该方法能够充分利用Hadoop平台的分布式计算能力,克服大规模图像分类中时耗过长、存储及文件系统瓶颈的问题,提高大规模图像分类的效率。本专利技术的技术方案如下。一种基于Hadoop平台的分布式图像分类算法,包括以下几个技术步骤:步骤1.提取图像Sift特征:输入多幅训练图像,设计在Hadoop平台上并行提取各个训练图像SIFT特征,生成训练图像的SIFT特征库;步骤2.利用Sift特征生成BoVW视觉词典:在Hadoop平台上,将sift特征库中的sift向量进行分布式聚类,得到若干视觉单词,作为BoVW模型的词典;步骤3.提取BoVW模型的词典后,将经过特征提取的训练图像与此词典对照,把训练图像表示为基于词典的直方图向量形式;步骤4.将步骤3的训练图像的直方图向量作为随机森林分类器的训练输入,在Hadoop上设计分类器的并行化生成;步骤5.针对需要分类的测试图像,将其依次进行特征提取、直方图向量化操作后,输入步骤4所得的分类器,在Hadoop平台上进行并行分类。本专利技术针对大规模图像分类运算耗时过多、文件系统及存储架构落后的问题,提出一种基于Hadoop平台的图像分类方法。实验显示,本专利技术不仅具有较好的分类准确度,同时有效减少分类时间,可以良好地应用于大规模图像分类场景。附图说明图1是Hadoop平台的结构图图2是本专利技术的流程图图3是BoVW模型的原理图具体实施方式本专利技术将图像的分类过程分为图像特征的提取和随机森林分类器的训练两个阶段,在每个阶段进行并行化设计与编程,使得图像处理的整体过程都不涉及对全部图像数据的操作;另外,在第一个阶段引入BoVW模型,依据模型对图像进行简化表示,提高图像分类的准确性。本专利技术选取Caltech-101经典图像库进行实验,随机选取brain、bonsai、leopards等八类图像进行分类。在每类图像中,分别选取30幅图像作为训练图像,20幅作为测试图像,每项实验均进行10次。下面对本专利技术做进一步说明。(1)图像特征的提取Sift算法提取的Sift描述子对图像尺度变换、旋转、亮度变化等保持不变性,对视角变化、仿射变换也保持一定的稳定性。在Hadoop上进行大量图像的Sift特征提取,并行化步骤如下:步骤1 将训练图像数据集{img(x,y)本文档来自技高网
...
一种基于Hadoop平台的图像分类方法

【技术保护点】
一种基于Hadoop平台的图像分类方法,包括以下步骤:步骤1.提取图像Sift特征:输入多幅训练图像,设计在Hadoop平台上并行提取各个训练图像SIFT特征,生成训练图像的SIFT特征库;步骤2.利用Sift特征生成BoVW视觉词典:在Hadoop平台上,将sift特征库中的sift向量进行分布式聚类,得到若干视觉单词,作为BoVW模型的词典;步骤3.提取BoVW模型的词典后,将经过特征提取的训练图像与此词典对照,把训练图像表示为基于词典的直方图向量形式;步骤4.将步骤3的训练图像的直方图向量作为随机森林分类器的训练输入,在Hadoop上设计分类器的并行化生成;步骤5.针对需要分类的测试图像,将其依次进行特征提取、直方图向量化操作后,输入步骤4所得的分类器,在Hadoop平台上进行并行分类。

【技术特征摘要】
1.一种基于Hadoop平台的图像分类方法,包括以下步骤:步骤1.提取图像Sift特征:输入多幅训练图像,设计在Hadoop平台上并行提取各个训练图像SIFT特征,生成训练图像的SIFT特征库;步骤2.利用Sift特征生成BoVW视觉词典:在Hadoop平台上,将sift特征库中的sift向量进行分布式聚类,得到若干视觉单词,作为BoVW模型的词典;...

【专利技术属性】
技术研发人员:侯春萍张倩楠王宝亮常鹏
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1