一种基于稀疏神经网络的图像检索文本方法技术

技术编号:15500136 阅读:187 留言:0更新日期:2017-06-03 22:07
本发明专利技术公开了一种基于稀疏神经网络的图像检索文本方法,构建两个独立的稀疏神经网络模型,然后分别把图像和文本的底层特征输入到稀疏神经网络模型中,将两个稀疏神经网络模型的输出作为图像和文本的语义理解,并将其视为图像和文本的语义空间,在此语义空间中进行图像检索文本操作,并根据检索结果排序,检索出与查询图像最匹配的文本。本发明专利技术将图像和文本投影到二者共同的语义空间,充分利用了二者的语义信息,并将稀疏编码的思想引入传统的反向传播神经网络,稀疏的限制强制网络去学习有用的信息,所以能提高检索准确度。

An image retrieval text method based on sparse neural networks

The invention discloses a text image retrieval method based on sparse neural networks, constructing two independent sparse neural network model, and then the underlying characteristics of image and text input to the sparse neural network model, the output of two sparse neural network model for semantic understanding of image and text, and the as the semantic space of the image and text, image retrieval in text semantic space, and according to the ranking of search results, search and query text image matching. In the invention, the image and text semantic projection to the common space of the two, make full use of the semantic information of the two, and the BP neural network is introduced to the traditional sparse encoding, sparse constraints force the network to learn useful information, so it can improve the retrieval accuracy.

【技术实现步骤摘要】
一种基于稀疏神经网络的图像检索文本方法
本专利技术涉及一种基于稀疏神经网络的图像检索文本方法。
技术介绍
传统的信息检索是单模态数据之间的检索,然而,随着大数据时代的到来,多模态数据增长迅速,单模态检索已无法满足人们的需要。因而,跨媒体检索(如图像检索文本)应运而生,并且正在成为信息检索的新趋势。图像检索文本最大的挑战就是二者之间的异构鸿沟。最通用的解决方法为子空间学习方法,典型相关分析(CCA)使用相关系数作为测量标准,在保持图像和文本的相关性达最大的前提下,将图像和文本投影到一个同维子空间,从而实现图像和文本在同一空间检索的任务,类似的方法还有,偏最小二乘(PLS)和双线性差值(BLM)等,他们都属于无监督的方法;进一步的加入语义信息的有监督子空间学习方法,三视图典型相关分析(Three-ViewCCA)同时优化图像和文本之间的子空间和二者的投影与语义之间的相关性,使之达到最大,此外还有,联合特征选择和子空间学习方法(JFSSL),广义多视图分析(GMA)等。近年,深度学习技术在多个领域取得突破性进展,也在跨媒体检索中得到了广泛应用,深度典型相关分析(DeepCanonicalCorrelationAnalysis)使用深度神经网络学习一个复杂的非线性投影,使得投影后的图像和文本之间的数据相关性最大;端到端的典型相关分析(End-to-endCCA)使用两路神经网络同时优化图像和文本之间的相关性,最终使得二者之间的相关性最大。然而,上述方法均具有以下缺点:一方面,这些方法假设图像和文本之间可以学习到一个有效的同构子空间,但对于许多真实应用,可能一幅图像上并非所有内容都与其文本描述有关,这些不相关的内容就会影响二者之间建立的同构子空间的有效性,甚至无法找到一个同构子空间;另一方面,子空间学习方法主要努力在于找到图像和文本之间的相关性,语义信息在其中起到的作用不大。而语义信息非常有利于检索方法学习到有用的划分信息,因此,如何更好地利用语义信息,将图像和文本投影到语义空间,是目前研究的一个重点和难点。
技术实现思路
本专利技术为了解决上述问题,提出了一种基于稀疏神经网络的图像检索文本方法,本专利技术模仿人类视觉机制,将图像和文本的底层特征输入神经网络,网络输出为二者的语义理解,方法跨越了图像和文本底层特征与高层语义之间的语义鸿沟。本专利技术为了解决现有技术中不相关的内容就会影响二者之间建立的同构子空间的有效性,通过构建两个独立的神经网络,将图像和文本投影到二者共同的语义空间,充分利用了二者的语义信息,并将稀疏编码的思想引入传统的反向传播神经网络,稀疏的限制强制网络去学习有用的信息,所以能提高检索准确度。为了实现上述目的,本专利技术采用如下技术方案:一种基于稀疏神经网络的图像检索文本方法,构建两个独立的稀疏神经网络模型,然后分别把图像和文本的底层特征输入到稀疏神经网络模型中,将两个稀疏神经网络模型的输出作为图像和文本的语义理解,并将其视为图像和文本的语义空间,在此语义空间中进行图像检索文本操作,并根据检索结果排序,检索出与查询图像最匹配的文本。进一步的,对两个独立的稀疏神经网络模型进行训练。进一步的,与查询图像最匹配的文本为语义空间内距离图像距离最近的检索文本。进一步的,具体包括以下步骤:(1)获取图像和文本的底层特征,构建图像的训练样本、测试样本以及文本的训练样本和测试样本;(2)构建独立的稀疏神经网络模型,利用其训练图像训练样本,构建另一独立稀疏神经网络模型利用其训练文本训练样本;(3)将图像的测试样本输入其对应的训练好的稀疏神经网络模型,得到其网络输出,将文本的测试样本输入其对应的训练好的稀疏神经网络模型,得到其网络输出;(4)利用图像与文本的网络输出,分别表示查询图像和带检索文本,求查询图像与所有待检所文本两两之间的距离,确定最匹配的文本。所述步骤(1)中,图像的训练样本和测试样本采用多倍交叉验证,将所有数据随机均匀分成多份,每次选取一组作为测试数据,其余的作为训练数据,实验重复多次,同样的,文本的训练样本和测试样本也采用多倍交叉验证,图像和文本选取的训练样本和测试样本应一一对应。所述步骤(2)中,训练的具体过程包括:(2-1)随机地初始化权重矩阵;(2-2)将图像训练样本输入稀疏神经网络模型,网络正向传播,分别计算网络的隐藏层节点和输出层节点的输出值;(2-3)网络误差反向传播,对于稀疏神经网络模型的输出层节点和隐藏层节点,计算其误差项;(2-4)根据误差项更新每一个权重值;(2-5)重复步骤(2-2)-(2-4),直到满足迭代结束条件,训练完毕。所述步骤(2-5)中,迭代结束条件为达到设定的迭代次数。所述步骤(3)中,训练的具体过程包括:(3-1)随机地初始化权重矩阵;(3-2)将文本训练样本输入稀疏神经网络模型,网络正向传播,分别计算网络的隐藏层节点和输出层节点的输出值;(3-3)网络误差反向传播,对于稀疏神经网络模型的输出层节点和隐藏层节点,计算其误差项;(3-4)根据误差项更新每一个权重值;(3-5)重复步骤(3-2)-(3-4),直到满足迭代结束条件,训练完毕。所述步骤(3-5)中,迭代结束条件为达到设定的迭代次数。所述步骤(4)中,求查询图像与所有待检所文本两两之间的距离,将所求距离进行排序,确定距离最小的为与查询图像最匹配的文本。与现有技术相比,本专利技术的有益效果为:本专利技术模仿人类视觉机制,将图像和文本的底层特征输入神经网络,网络输出为二者的语义理解,本专利技术将图像和文本投影到二者共同的语义空间,充分利用了二者的语义信息,并将稀疏编码的思想引入传统的反向传播神经网络,稀疏的限制强制网络去学习有用的信息,所以能提高检索准确度。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为训练稀疏神经网络的流程图;图2为图像检索文总过程的示意图。具体实施方式:下面结合附图与实施例对本专利技术作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。正如
技术介绍
所介绍的,现有技术中存在语义信息在检索过程中作用不大,以及不相关的内容就会影响二者之间建立的同构子空间的有效性的缺点,本专利技术为了解决上述问题,提供了一种基于稀疏神经网络的图像检索文本方法。模仿人类视觉机制,将图像和文本的底层特征输入神经网络,网络输出为二者的语义理解,方法跨越了图像和文本底层特征与高层语义之间的语义鸿沟。首先,构建两个独立的神经网络,然后分别把图像和文本的底层特征输入两个神经网络,网络的输出即图像和文本的语义理解,并将其视为二者的语义空间,最后在语义空间中进行图像检索文本的过程,并根据检索结果排序,检索出与查询图像最匹配的文本。本专利技术将图像本文档来自技高网
...
一种基于稀疏神经网络的图像检索文本方法

【技术保护点】
一种基于稀疏神经网络的图像检索文本方法,其特征是:构建两个独立的稀疏神经网络模型,然后分别把图像和文本的底层特征输入到稀疏神经网络模型中,将两个稀疏神经网络模型的输出作为图像和文本的语义理解,并将其视为图像和文本的语义空间,在此语义空间中进行图像检索文本操作,并根据检索结果排序,检索出与查询图像最匹配的文本。

【技术特征摘要】
1.一种基于稀疏神经网络的图像检索文本方法,其特征是:构建两个独立的稀疏神经网络模型,然后分别把图像和文本的底层特征输入到稀疏神经网络模型中,将两个稀疏神经网络模型的输出作为图像和文本的语义理解,并将其视为图像和文本的语义空间,在此语义空间中进行图像检索文本操作,并根据检索结果排序,检索出与查询图像最匹配的文本。2.如权利要求1所述的一种基于稀疏神经网络的图像检索文本方法,其特征是:对两个独立的稀疏神经网络模型进行训练。3.如权利要求1所述的一种基于稀疏神经网络的图像检索文本方法,其特征是:与查询图像最匹配的文本为语义空间内距离图像距离最近的检索文本。4.一种基于稀疏神经网络的图像检索文本方法,其特征是:具体包括以下步骤:(1)获取图像和文本的底层特征,构建图像的训练样本、测试样本以及文本的训练样本和测试样本;(2)构建独立的稀疏神经网络模型,利用其训练图像训练样本,构建另一独立稀疏神经网络模型利用其训练文本训练样本;(3)将图像的测试样本输入其对应的训练好的稀疏神经网络模型,得到其网络输出,将文本的测试样本输入其对应的训练好的稀疏神经网络模型,得到其网络输出;(4)利用图像与文本的网络输出,分别表示查询图像和带检索文本,求查询图像与所有待检所文本两两之间的距离,确定最匹配的文本。5.如权利要求4所述的一种基于稀疏神经网络的图像检索文本方法,其特征是:所述步骤(1)中,采用多倍交叉验证,将所有数据随机均匀分成多份,每次选取一组作为测试数据,其余的作为训练数据,实验重复多次,同样的,文本的训练样本和测试样本也采用多倍交叉验证,图像和文本选取的训练样...

【专利技术属性】
技术研发人员:张化祥张滨王振华王强孟丽丽任玉伟吴鸿辰郭培莲季辉邵秀婷李圣涛
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1