一种基于Hadoop平台的图像分类方法技术

技术编号：14146971 阅读：138 留言：0更新日期：2016-12-11 03:58

本发明专利技术涉及一种基于Hadoop平台的图像分类方法，包括：提取图像Sift特征，生成训练图像的SIFT特征库；利用Sift特征生成BoVW视觉词典；提取BoVW模型的词典后，将经过特征提取的训练图像与此词典对照，把训练图像表示为基于词典的直方图向量形式；将训练图像的直方图向量作为随机森林分类器的训练输入，在Hadoop上设计分类器的并行化生成；针对需要分类的测试图像，将其依次进行特征提取、直方图向量化操作后，输入分类器，在Hadoop平台上进行并行分类。本发明专利技术不仅具有较好的分类准确度，同时有效减少分类时间，可以良好地应用于大规模图像分类场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分类技术，具体涉及一种分布式图像分类方法。
技术介绍
一、图像分类方面图像分类技术利用计算机对图像进行自动化分析与分类，是目标检测与识别、图像检索等领域的基础。图像分类一般由图像特征的提取和基于特征的分类两个方面组成。在特征提取方面，目前大多关注图像的局部特征，使用尺度不变特征变换(Scale Invariant Feature Transform,SIFT)、加速稳健特征(Speeded Up Robust Features,SURF)等算法提取出局部特征向量。视觉词袋(Bag of Visual Words,BoVW)模型在此基础上更进一步，将提取出的大量特征向量进行聚类，生成视觉词典,将图像根据词典映射成词典单词的直方图形式，这样既减少了特征向量的数量，也使图像向量更具表达力。在基于特征的分类方面，目前多使用机器学习的方法进行。主流的分类器有支持向量机(Support Vector Machine,SVM)分类器，它在解决小样本、非线性以及高维分类中表现出良好的性质。另外如Adaboost分类器，作为一种迭代算法，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率。但是，当待处理的图像规模较大时，其海量样本、高维向量的特点对这些传统分类算法所依赖的文件系统和计算架构提出了很大的挑战。随机森林算法将随机理论引入决策树模型，利用若干决策树建立组合分类器，为图像分类提供了新的思路，是生物信息学、数据挖掘领域热门方向之一。然而，当数据量特别大时，随机森林分类器也面临着分类时耗过长的问题。二、云计算平台方面Hadoop是当前主...
一种基于Hadoop平台的图像分类方法

【技术保护点】
一种基于Hadoop平台的图像分类方法，包括以下步骤：步骤1.提取图像Sift特征：输入多幅训练图像，设计在Hadoop平台上并行提取各个训练图像SIFT特征，生成训练图像的SIFT特征库；步骤2.利用Sift特征生成BoVW视觉词典：在Hadoop平台上，将sift特征库中的sift向量进行分布式聚类，得到若干视觉单词，作为BoVW模型的词典；步骤3.提取BoVW模型的词典后，将经过特征提取的训练图像与此词典对照，把训练图像表示为基于词典的直方图向量形式；步骤4.将步骤3的训练图像的直方图向量作为随机森林分类器的训练输入，在Hadoop上设计分类器的并行化生成；步骤5.针对需要分类的测试图像，将其依次进行特征提取、直方图向量化操作后，输入步骤4所得的分类器，在Hadoop平台上进行并行分类。

【技术特征摘要】
1.一种基于Hadoop平台的图像分类方法，包括以下步骤：步骤1.提取图像Sift特征：输入多幅训练图像，设计在Hadoop平台上并行提取各个训练图像SIFT特征，生成训练图像的SIFT特征库；步骤2.利用Sift特征生成BoVW视觉词典：在Hadoop平台上，将sift特征库中的sift向量进行分布式聚类，得到若干视觉单词，作为BoVW模型的词典；...

【专利技术属性】
技术研发人员：侯春萍，张倩楠，王宝亮，常鹏，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人