一种基于分布式K-means的海量图像分类方法技术

技术编号：12091369 阅读：75 留言：0更新日期：2015-09-23 09:43

本发明专利技术提供了一种基于分布式K-means的海量图像分类方法，属于机器学习与图像处理技术领域。本发明专利技术可用于大规模图像分类，该方法在大数据处理平台Hadoop上采用分布式K-means算法提取图像特征，最终实现对大规模图像进行分类的目的。本发明专利技术通过对大规模图像数据进行字典的学习，构建特征映射函数以及分类算法的设计，提出了在大数据处理平台Hadoop基础上，基于分布式K-means的特征提取算法。该方法避免了人为设计大规模图像特征的繁琐工作，在保证分类准确度的前提下，减少了训练时间，本发明专利技术的成果在大规模数据库管理、军事、医疗等方面有着重要的意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习与图像处理
，涉及分布式平台上的海量图像处理，尤其涉及。
技术介绍
近年来，聚类算法被广泛的应用在日常生活中。在商业上，聚类算法有助于分析人员从各种消费数据库中提取出特定的消费信息，并且概括出消费信息中体现的消费模式。聚类算法是数据挖掘领域中的一个重要部分，通常可以作为一个良好的工具来发现数据库中的深层次的特征表达，同时，可以概括出每一个特定类别的特点，最重要的是，聚类算法可以作为数据挖掘领域中各个算法的预处理步骤。随着图像库的不断增大，复杂度不断增高，单机的提取人为设计的特征已经远远不能满足需求，使用并行处理无疑是一个好的解决方案。大数据处理平台Hadoop作为Map-Reduce架构的开源实现，主要用于大规模数据集的并行计算，由于架构简单，对数据密集型应用能够有效支持。本专利技术正是在大数据处理平台Hadoop的基础上，将单机K-means算法并行化，对输入的数据并行处理，设计并实现了基于分布式K-means的图像特征提取算法。
技术实现思路
本专利技术要解决大规模图像的特征提取问题，从而达到图像分类的目的，针对图像分类的准确度，提出，研宄实现在大数据处理平台Hadoop的基础上，提出并行化的图像特征提取算法，图像的多分类问题，采用 DAG-SVM分类器完成最终的图像分类。为了实现上述目的本专利技术采用以下技术方案：，其流程如图1所示，具体包括以下步骤：步骤1.训练图像预处理；输入训练图像数据集，并将每张训练图像划分成多个图像块，对每个图像块依次进行正则化和白化操作以去除干...

【技术保护点】
一种基于分布式K‑means的海量图像分类方法，具体包括如下步骤：步骤1.训练图像预处理；输入训练图像数据集，并将每张训练图像划分成多个图像块，对每个图像块依次进行正则化和白化操作以去除干扰信息、保留关键信息，作为输入信息送给下一步处理；步骤2.在大数据处理平台Hadoop上，将K‑means算法并行化，把步骤1所得的预处理后的图像块信息作为输入，进行字典的提取；步骤3.提取字典后，构建特征映射函数，将预处理后的训练图像块映射为新的特征表达；步骤4.将步骤3获得的训练图像块的新的特征表达输入到SVM分类器中，进行图像分类训练；步骤5.针对需要进行分类的目标图像，将其依次进行图像块划分、正则化、白化操作以及特征提取之后，利用所述完成图像分类训练的SVM分类器进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：董乐，张宁，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人