一种图像数据检索方法技术

技术编号:22688935 阅读:17 留言:0更新日期:2019-11-30 03:35
一种图像数据检索方法,属于计算机科学与技术领域。为了解决有些现有模型需要依赖于三元组进行训练导致的训练过程复杂的问题,以及现有的模型网络深度严重受到梯度问题的影响而导致的精度不高的问题。本发明专利技术INPUT层后连接一个卷积子网络和一个哈希子网络;哈希子网络包括分片层、全连接层单元、归一化层单元、激活层单元、合并层和阈值化层;分片层将卷积子网络输出的特征划片,然后分别进入每个全连接层分别处理,然后分别经过归一化层后再经过激活函数处理;经过激活函数后的特征进入合并层合并;进入阈值化层,阈值化层数输出哈希码;针对检索图像,利用训练好的深度哈希模型进行目标图像数据的检索。本发明专利技术适用于图像数据检索。

A method of image data retrieval

An image data retrieval method belongs to the field of computer science and technology. In order to solve the problem that some existing models need to rely on triples for training, the training process is complex, and the existing model network depth is seriously affected by the gradient problem, resulting in the problem of low precision. The input layer of the invention is connected with a convolution sub network and a hash sub network; the hash sub network includes a slice layer, a full connection layer unit, a normalization layer unit, an activation layer unit, a merging layer and a thresholding layer; the slice layer slices the characteristics of the output of the convolution sub network, and then enters each full connection layer for processing respectively, and then passes through the normalization layer and the activation function respectively Data processing; after the activation function, the features enter the merge layer; enter the threshold layer, the threshold layer output hash code; for the retrieval image, use the trained depth hash model to retrieve the target image data. The invention is suitable for image data retrieval.

【技术实现步骤摘要】
一种图像数据检索方法
本专利技术涉及一种图像的检索方法,属于计算机科学与

技术介绍
随着计算机技术的发展,尤其是人工智能领域技术的发展。面部识别、图像处理、自然语言处理等各个实际应用领域都开始利用深度神经网络来实现,甚至已经依赖于深度神经网络。针对最近邻搜索问题,需要根据一个给定的查询(query),然后需要找到空间中离它最近的点,图像检索也通常也作为一种近邻搜索来处理。近些年,图像检索得到了非常广泛的研究,如中山大学的潘炎老师研究组和颜水成老师合作,在美国人工智能协会年会(AAAI2014)上发表的论文提出了一种名为CNNH(ConvolutionalNeuralNetworkHashing)的方法,把基于CNN的深度哈希算法推到了前台。后来颜水成老师使用了一个比CNNH中的网络深得多的NetworkinNetwork的网络结构,简称为NINH(NINHashing)或DNNH(DeepNeuralNetworkHashing)。其网络使用三张图像构成的三元组进行训练。取得了良好的效果,但是训练过程需要花费较多的训练图像处理的时间,而且操作比较繁琐。其他科研人员对于CNN和深度哈希算法来解决图像搜索问题的技术也展开了大量的研究和实验,大家搭建的深度神经网络各不相同,取得的效果也各有优劣。这个过程中出现过比较经典的模型结构,但是各种经典的模型也由于适用范围和自身存在的特定被不断改进和更新,但是有些改进不但不能更优,甚至效果会变差,这都是由于深度神经网络自身具备的特性而导致的,因为深度神经网络的结构会严重影响着处理性能。不仅如此,松弛问题、损失函数(或称目标函数)的影响、训练过程的梯度下降过程等等都会严重影响深度神经网络的处理性能。目前的深度神经网络已经能够取得较好的检索结果,但是如何能够确定与query更加匹配的检索结果仍有待于进一步提高。
技术实现思路
本专利技术为了解决有些现有模型需要依赖于三元组进行训练导致的训练过程复杂的问题,以及现有的模型网络深度严重受到梯度问题的影响而导致的精度不高的问题。一种图像数据检索方法,包括以下步骤:深度哈希模型如下:INPUT层后连接一个卷积子网络,卷积子网络后连接一个哈希子网络;所述的哈希子网络包括分片层、全连接层单元、归一化层单元、激活层单元、合并层和阈值化层;将卷积子网络输出的特征记为x,分片层将特征x划分为n片,每片特征为xi,i=1,2,…n;每一片包含的特征维数是m/n,m为特征x的维数;哈希子网络的全连接层单元有n个全连接层,每个全连接层分别对应处理一个xi,全连接处理表示为fi=Wixi+bi,其中Wi为第i个全连接层的权重矩阵,bi为对应的偏置;归一化层单元有n个归一化层,每个归一化层对应处理一个fi,归一化处理后表示为gi,范围为[-1,1],激活层单元有n个激活函数层,每个激活函数层对应处理一个gi,激活函数为其中β为平滑控制参数,e自然常数;gi经过激活函数后记为qi;激活层编码进入Softmax分类器;所有的qi进入合并层,合并层将qi合并为一个n维向量q=(q1,q2,…,qn)T;然后进入阈值化层,阈值化函数为:阈值化层数输出哈希码;深度哈希模型的损失函数为v=(v(q1),v(q2),…,v(qn))T为阈值化层输出的哈希码;表示q-1的L1范数的2次方;l为权重因子;深度哈希模型经过训练集训练之后得到训练好的深度哈希模型;针对检索图像,利用训练好的深度哈希模型进行目标图像数据的检索。进一步地,所述归一化层中fj为f1至fn中模最大的特征。本专利技术的有益效果是:本专利技术的训练过程可以直接使用单张的图像,并不用依赖于三元组进行训练,能够节省大量对训练图像进行处理的时间,而且训练过程简单、易于实现;而且能够节省大量的针对于训练集本身进行处理的时间,即训练集的可以直接使用,省时省力。本专利技术归一化层单元中的归一化操作,避免了因为双正切激活函数存在由于饱和产生的梯度消失的问题,这样不仅能够保证本专利技术可以具有足够深的神经网络搭建能力,而且还能够保证在梯度求导过程能够具有相对较好的寻优效果。本专利技术深度哈希模型的损失函数使得本专利技术具有更好的学习和优化效果。附图说明图1为深度哈希模型结构示意图。具体实施方式具体实施方式一:本实施方式为一种图像数据检索方法,具体包括以下步骤:如图1所示,深度哈希模型如下:INPUT层后连接一个卷积子网络,卷积子网络后连接一个哈希子网络;所述的哈希子网络包括分片层、全连接层单元、归一化层单元、激活层单元、合并层和阈值化层;所述INPUT层为输入层。将卷积子网络输出的特征记为x,分片层将特征x划分为n片,每片特征为xi,i=1,2,…n;每一片包含的特征维数是m/n,m为特征x的维数;本专利技术中要严格控制m/n是整数,可以利用卷积子网络中的最后一层FC层控制特征维数,使得m/n为整数;这里的操作会影响后续归一化的过程,从而影响激活层进而影响整体模型的效果;哈希子网络的全连接层单元有n个全连接层,每个全连接层分别对应处理一个xi,全连接处理表示为fi=Wixi+bi,其中Wi为第i个全连接层的权重矩阵,bi为对应的偏置;归一化层单元有n个归一化层,每个归一化层对应处理一个fi,归一化处理后表示为gi,范围为[-1,1],在一些实施例中,fj为f1至fn中模最大的特征;这样能够保证特征符号不变,且归一化的到[-1,1]的区间内,从而避免因为双正切激活函数存在由于饱和产生的梯度消失的问题,这样不仅能够保证本专利技术可以具有足够深的神经网络搭建能力,而且还能够保证在梯度求导过程能够具有相对较好的寻优效果。激活层单元有n个激活函数层,每个激活函数层对应处理一个gi,激活函数为其中β为平滑控制参数,e自然常数;gi经过激活函数后记为qi;激活层编码进入Softmax分类器;所有的qi进入合并层,合并层将qi合并为一个n维向量q=(q1,q2,…,qn)T;然后进入阈值化层,阈值化函数为:阈值化层数输出哈希码;深度哈希模型的损失函数为v=(v(q1),v(q2),…,v(qn))T为阈值化层输出的哈希码;表示q-1的L1范数的2次方;l为权重因子;本专利技术中的为量化误差损失的上边界,当上边界最小时对应边界内的目标也会最小,从而使得本专利技术具有更好的学习和优化效果。深度哈希模型经过训练集训练之后得到训练好的深度哈希模型;针对检索图像,利用训练好的深度哈希模型进行目标图像数据的检索。具体实施方式二:本实施方式为一种图像数据检索方法,本实施方式所述的卷积子网络包括至少四个Conv层、至少四个Pool层和至少两个FC层;Conv层表示卷积层,Pool层表示池化层,FC层表示全连接层;在一些实施例中,所述卷积子网络包括有四个本文档来自技高网
...

【技术保护点】
1.一种图像数据检索方法,其特征在于,包括以下步骤:/n深度哈希模型如下:/nINPUT层后连接一个卷积子网络,卷积子网络后连接一个哈希子网络;所述的哈希子网络包括分片层、全连接层单元、归一化层单元、激活层单元、合并层和阈值化层;/n将卷积子网络输出的特征记为x,分片层将特征x划分为n片,每片特征为x

【技术特征摘要】
1.一种图像数据检索方法,其特征在于,包括以下步骤:
深度哈希模型如下:
INPUT层后连接一个卷积子网络,卷积子网络后连接一个哈希子网络;所述的哈希子网络包括分片层、全连接层单元、归一化层单元、激活层单元、合并层和阈值化层;
将卷积子网络输出的特征记为x,分片层将特征x划分为n片,每片特征为xi,i=1,2,…n;每一片包含的特征维数是m/n,m为特征x的维数;
哈希子网络的全连接层单元有n个全连接层,每个全连接层分别对应处理一个xi,全连接处理表示为fi=Wixi+bi,其中Wi为第i个全连接层的权重矩阵,bi为对应的偏置;
归一化层单元有n个归一化层,每个归一化层对应处理一个fi,归一化处理后表示为gi,范围为[-1,1],
激活层单元有n个激活函数层,每个激活函数层对应处理一个gi,激活函数为其中β为平滑控制参数,e自然常数;gi经过激活函数后记为qi;激活层编码进入Softmax分类器;
所有的qi进入合并层,合并层将qi合并为一个n维向量q=(q1,q2,…,qn)T;
然后进入阈值化层,阈值化函数为:
阈值化层数输出哈希码;
深度哈希模型的损失函数为
v=(v(q1),v(q2),…,v(qn))T为阈值化层输出的哈...

【专利技术属性】
技术研发人员:齐峰张艳明徐海利迟言杨巍巍
申请(专利权)人:黑龙江中医药大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1