一种基于视觉转语义网络的零样本图像哈希检索方法技术

技术编号:26597885 阅读:13 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种基于视觉转语义网络的零样本图像哈希检索方法,基于视觉转语义网络,将图像特征向量转变为语义特征,再利用语义特征与类别向量语义特征的距离构成目标损失函数,以及语义特征重构的分类损失及哈希损失,共同求解出训练数据集上的最优哈希方法,使得针对未出现的类别,哈希检索方法依旧具有可行性,相比传统哈希算法,具有更好的泛化性和鲁棒性,减少了在数据种类愈发丰富的今天图像检索模型的训练开销,将哈希模型的更新周期放慢,本发明专利技术可以被应用于数据库图片不断扩充的图像检索以及图像溯源等领域。

【技术实现步骤摘要】
一种基于视觉转语义网络的零样本图像哈希检索方法
本专利技术属于零样本图像哈希检索技术,具体涉及一种基于视觉转语义网络的零样本图像哈希检索方法。
技术介绍
图像哈希检索是计算机视觉领域的一个重要问题,它的任务是依据输入图片,快速找到了数据库中最相近的图片,并依据相似度进行排序,利用数据库中的图片相关性进行同风格图片搜寻或是对输入图片进行溯源。随着当今数据量的日益扩大,传统方式搜索图片会因为数据库中的图片过多导致搜索速度过慢的问题,无法满足日益扩大的图像检索需求。同时,图像数据量的剧增也必然会带来图像种类的丰富,此时采用监督式学习的图像哈希方法需要引入新种类图片的数据,并重新进行训练,这导致了两部分缺陷,首先是新种类图片的数量必然远远小于传统类别,这会导致监督式训练时,新类别的训练效果不理想,训练得到的哈希网络依旧倾向于学习传统类别特征,其次是当有新类别加入后就需要添加新标签并重新训练,放在变化飞快的现实环境,这会不断带来训练开销,耗时且昂贵。为了使得哈希检索方法适应愈发复杂的图像数据,零样本哈希图像检索方法是图像检索未来发展的重要课题,同时也因为其缺少相关类别的训练数据,设计准确且稳定的零样本图像检索算法仍然是一项具有挑战性的任务。近年来,少样本学习以及零样本学习领域的发展使得零样本的哈希检索方法得到了显著的改善。零样本学习的核心思想在于利用自然语言处理模型将类别标签翻译为特征向量,之后学习从常规类别图像数据到常规类别标签特征向量的映射,同时维持类别间的相对关系,使得零样本类别的数据同样可以映射到正确类别。例如常见类中存在男性平民、女性平民、国王,零样本学习得到的映射模型可以学习到多种类别间的相对关系,从而分辨出没有训练数据的王后。零样本的哈希检索方法可以分为两类:单阶段哈希算法以及二阶段哈希算法。典型的单阶段哈希算法,如离散相似度转移网络方法SitNet[Y.C.Guo,G.G.Ding,J.G.HanandY.Gao,“SitNet:Discretesimilaritytransfernetworkforzero-shothashing,”Proceedingsofthe26thInternationalJointConferenceonArtificialIntelligence,pp.1767-1773,2017.],将图像信息转化为哈希编码,之后再将哈希编码映射到语义空间,从而调整第一部分的哈希映射函数。这个做法存在一个缺陷,类别间存在相似度的高低,对于在语义空间距离较近的类,其在二值空间即汉明空间内距离可能更为接近,那么意味着学习到的哈希映射函数无法区分未见过类别的图像数据及其相似类别图像数据,这一缺陷会直接导致在拥有相似类别的未见类别上哈希算法效果差。二阶段算法则是先将图像信息与语义信息整合到同一个属性空间,并利用属性相似度以及模态间相似度生成哈希码,两阶段算法可以利用人为放大类别间距离从而避免单阶段算法的问题,代表性的算法是AgNet[Z.Ji,Y.X.Sun,Y.L.YuandY.Gao,“Attribute-guidednetworkforcross-modalzero-shothashing,”IEEETransactionsonNeuralNetworksandLearningSystems,vol31,pp.321-330,2020],虽然AgNet更关注于放大类别间的差距,但其第一步对属性的迁移学习在零样本学习中被证明泛化性较差。因此,一种基于视觉转语义网络的零样本图像哈希检索方法亟待提出。
技术实现思路
为解决现有技术存在的缺陷,本专利技术提供一种基于视觉转语义网络的零样本图像哈希检索方法。为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术提供一种基于视觉转语义网络的零样本图像哈希检索方法,包括以下步骤:步骤1、对于输入图片Ii,i代表第i张图片,进行图像信息的整合,降低图像信息的维度,生成图像特征向量xi作为哈希算法的输入;步骤2、将图像特征向量xi输入到视觉转语义网络进行特征重构,将图像特征向量xi转变为语义特征si;步骤3、计算语义特征si与类别向量语义特征cyi的距离损失函数,即目标损失函数;类别向量语义特征cyi代表第i张图片标签的类别特征向量,yi即第i张图片的标签;所需求解的距离损失函数为其中,m为超参数,代表希望图像特征向量xi转语义特征si后与正确类别语义特征以及最近的错误类别语义特征的容许差值;N代表所有图片的数量;即语义特征Si到最近错误类别语义特征的距离;为转化后语义特征si到正确类别语义特征的距离;代表目标损失函数,即希望视觉转语义网络能将映射后的语义特征si更靠近正确的类别语义;步骤4、将语义特征si映射到所有标签类的维度,进行分类判断;具体是利用全连接网络将语义特征si映射到含有标签数量大小L个神经元的输出层,之后利用输出层每个节点计算各个类别的概率,得到概率向量pi,之后计算交叉熵损失函数,即为如下分类损失函数其中,yi为第i张图片的类别标签单热向量;代表的是分类损失函数,其本质目的是希望经过语义映射得到的语义特征具有更多的信息,并能依靠低纬度下的丰富信息完成分类任务的重构;步骤5、将语义特征si映射到汉明空间,生成哈希编码,设立如下哈希损失函数其中,bi代表哈希向量,其为多位二值的特征向量;sij是0,1二值变量,当图片i与图片j为相同类别图片时,该值为1,不同类别时,该值为0;λ为超参数,代表间隔系数;α为超参数,代表惩罚系数;损失函数中第一项sij*||bi-bj||2代表相同类别哈希编码距离,第二项(1-sij)*max(0,λ-||bi-bj||2)代表不同类别哈希编码距离,第三项α*(|||bi|-e||1+|||bj|-e||1)则是相当于正则项,希望哈希编码函数能利用到更多的位数,其中e代表值全为1的向量;步骤6、将目标损失函数、分类损失函数、哈希损失函数整合,汇总为总损失函数,并最小化总损失函数,利用损失函数将梯度进行反向传播,更新包含图像转语义网络以及哈希编码网络在内的神经网络参数,通过训练数据集训练得到图像转语义再转哈希编码的哈希函数方法步骤7、对所有的数据库待检索图片XP,利用训练得到的哈希函数方法生成哈希编码BP,即为每个数据库中图片生成哈希编码,用以快速检索;步骤8、对所有训练数据集中未包含类的图片XQ,利用训练得到的哈希函数方法生成哈希编码BQ,并利用该哈希编码与数据库中数据进行比较,将汉明距离较近的相关图片检索排序得到;步骤9、利用BP以及BQ计算MAP指标以及Precision-R指标衡量在未见类别图片上哈希算法的检索效果,两指标越高意味着找到的图片更精准,属于同一类别图片的概率越大。作为本专利技术的一种优选技术方案,步骤1中生成图像特征向量xi的方法为利用基于ImageNet-1K的预训练模型,将输入图片Ii输入到模型中,然后提取中间层的图像特征向量x本文档来自技高网
...

【技术保护点】
1.一种基于视觉转语义网络的零样本图像哈希检索方法,其特征在于,包括以下步骤:/n步骤1、对于输入图片I

【技术特征摘要】
1.一种基于视觉转语义网络的零样本图像哈希检索方法,其特征在于,包括以下步骤:
步骤1、对于输入图片Ii,i代表第i张图片,进行图像信息的整合,降低图像信息的维度,生成图像特征向量xi作为哈希算法的输入;
步骤2、将图像特征向量xi输入到视觉转语义网络进行特征重构,将图像特征向量xi转变为语义特征si;
步骤3、计算语义特征si与类别向量语义特征cyi的距离损失函数,即目标损失函数;类别向量语义特征cyi代表第i张图片标签的类别特征向量,yi即第i张图片的标签;
所需求解的距离损失函数为



其中,m为超参数,代表希望图像特征向量xi转语义特征si后与正确类别语义特征以及最近的错误类别语义特征的容许差值;N代表所有图片的数量;即语义特征si到最近错误类别语义特征的距离;为转化后语义特征si到正确类别语义特征的距离;代表目标损失函数,即希望视觉转语义网络能将映射后的语义特征si更靠近正确的类别语义;
步骤4、将语义特征si映射到所有标签类的维度,进行分类判断;具体是利用全连接网络将语义特征si映射到含有标签数量大小L个神经元的输出层,之后利用输出层每个节点计算各个类别的概率,得到概率向量pi,之后计算交叉熵损失函数,即为如下分类损失函数



其中,yi为第i张图片的类别标签单热向量;代表的是分类损失函数,其本质目的是希望经过语义映射得到的语义特征具有更多的信息,并能依靠低纬度下的丰富信息完成分类任务的重构;
步骤5、将语义特征si映射到汉明空间,生成哈希编码,设立如下哈希损失函数



其中,bi代表哈希向量,其为多位二值的特征向量;sij是0,1二值变量,当图片i与图片j为相同类别图片时,该值为1,不同类别时,该值为0;λ为超参数,代表间隔系数;α为超参数,代表惩罚系数;损失函数中第一项sij*||bi-bj||2代表相同类别哈希编码距离,第二项(1-sij)*...

【专利技术属性】
技术研发人员:王祥丰金博陈健祝荣荣张浩
申请(专利权)人:苏州智元昇动智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1