【技术实现步骤摘要】
一种基于大数据的图像检索方法及系统
[0001]本专利技术涉及图像检索的
,尤其涉及一种基于大数据的图像检索方法及系统。
技术介绍
[0002]互联网时代,大量即时通讯软件、办公软件、购物平台、游戏平台等极大地便利和丰富了人们的学习、生活与工作,同时也产生了海量的多类别、异构性、非结构化的数据;图像数据以其直观性和信息大的特点数量爆炸性地增长,给人们生活带来极大的便利,但也因数量巨大、质量参差不齐、应用场景复杂等使得人们对图像的检索提出了更高的要求。
[0003]当前大多数的搜索引擎根据文本关键字检索图像,而检索关键字经常与图像的真实语义不匹配,因此检索性能受到影响;同时当前图像检索中主要采用对图像依次进行遍历的方式,而没有很好的索引机制来做索引,也增大了检索系统的负荷,并且传统的图像检索方法大多基于已有数据进行定时离线地构建图像索引,对于新增的图像检索存在时效性差的问题。
[0004]鉴于此,如何提取出更为准确的图像语义信息,并通过对图像语义信息进行索引编码,从而根据图像索引进行图像检索,成为本领域技术人员亟待解决的问题。
技术实现思路
[0005]本专利技术提供一种基于大数据的图像检索方法,通过HDFS将海量图像数据进行分布式存储,利用基于自编码器的多标签语义提取算法存储图像数据的多标签语义信息,并根据图像的多标签语义信息建立图像连接图,最后利用基于深度哈希的数据存储方法将结合图像连接图信息的图像数据进行存储,并根据图像的哈希索引进行更为高效的图像检索。
[0006]
【技术保护点】
【技术特征摘要】
1.一种基于大数据的图像检索方法,其特征在于,所述方法包括:获取海量图像数据,并将海量图像数据进行分布式存储;对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理;利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理,得到图像的多标签语义信息;根据图像的多标签语义信息建立图像信息连接图;利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储,从而将哈希编码值作为图像特征索引,并根据图像特征索引进行图像检索。2.如权利要求1所述的一种基于大数据的图像检索方法,其特征在于,所述将海量图像数据进行分布式存储,包括:1)将k个图像数据合并为1个文件,其中k设置为10;并将合并得到的文件转换为字节码的格式;2)创建图像存储表,设计两个列族MD(image data)、MI(image info),所述列族MD和M1分别存放文件的字节码和图像信息,所述图像信息包括图像的id和图像特征索引;同时进行预分区操作,在本发明一个具体实施例中,分区数量为9,每个分区的RowKey范围为N/(9k),其中N为图像数据的总数;3)将海量图像数据存储到分区中的图像存储表,其中图像特征索引设置为空白。3.如权利要求2所述的一种基于大数据的图像检索方法,其特征在于,所述对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理的流程为:1)通过对所存储的图像中每一个像素的三个分量求最大值,并将该最大值设置为该像素点的灰度值,得到存储图像的灰度图,所述灰度化处理的公式为:G(i,j)=max{R(i,j),G(i,j),B(i,j)}其中:(i,j)为存储图像中的一个像素点;R(i,j),G(i,j),B(i,j)分别为像素点(i,j)在R、G、B三个颜色通道中的值;G(i,j)为像素点(i,j)的灰度值;2)根据所述灰度图像,本发明利用分段线性变换的方式对图像的灰度进行拉伸的公式为:其中:f(x,y)为灰度图像的灰度图;MAX
f(x,y)
,MIN
f(x,y)
分别为灰度图的最大灰度值和最小灰度值。4.如权利要求3所述的一种基于大数据的图像检索方法,其特征在于,所述利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理,包括:1)构建m层的去噪自编码器,该自编码器将经预处理的图像数据集X为输入,进行m层的自编码处理;所述图像数据集X的自编码结果为:
其中:表示X的m次拷贝;为加入随机噪声后的数据,δ
i
为随机噪声;2)对于单个语义标签h以及单个训练样本x
i
∈W,利用KNN算法计算k
s
个与x
i
∈W具有相同标签的最近邻的样本集合knn
s
以及k
d
个与x
i
∈W具有不同标签的最近邻的样本集合knn
d
;重复该步骤,直到遍历所有语义标签;将所有的knn
s
集合和knn
d
集合构成全局几何矩阵L,其中矩阵的第i行为第i个训练样本x
i
的样本集合,第i行的前k
s
个数为第i个训练样本的样本集合knn
s
,后k
d
个数为第i个训练样本的样本集合knn
d
;3)对于所有语义标签,通过融合多个语义标签对图像样本间几何结构的影响,得到全局集合矩阵L的表征矩阵L
g
:其中:Y为语义标签集合,|Y|为语义标签个数;L为全局集合特征;4)求解表征矩阵L
g
的标准特征值分解,得到r个最小的非零特征值对应的特征向量集合,该集合构成的特征空间即是约简后的特征空间,该特征空间的样本维度是r,其中r为图像数据的数量;其中每一个特征向量即为对应图像数据的多标签语义信息。5.如权利要求4所述的一种基于大数据的图像检索方法,其特征在于,所述根据图像的多标签语义信息建立图像...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。