System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于跨模态检索,尤其涉及一种基于注意力嵌入式变分自编码器的跨模态检索方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、当前常用的跨模态检索方法主要包括以下方案:
3、传统的跨模态检索方法主要是学习一个公共表示空间,将不同模态特征映射至同一子空间内,以测量不同模态数据间的相似性,从而实现跨模态检索。例如典型相关性分析算法,根据空间向量关系模型计算模态特征在子空间中的距离,通过最大化两种模态投影之间的相关性来学习公共子空间,从而可以捕捉到模态之间的对应关系。因此,一些学者通过公共子空间方法关注对高级语义信息的探索,通过最小化判别损失函数和模态不变性损失等方式挖掘丰富的语义相关性,能够很大程度上消除跨模态异构差异,并能良好地捕获成对信息相关性;
4、随着深度神经网络的发展,大量基于深度学习的方法被用于跨模态检索领域。该方法利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。具体来说,首先将不同模态进行单独的表示,然后再利用高层网络最大化不同模态表示的相关性。深度学习方法相比子空间学习方法取得了更好的检索结果。例如利用对抗生成网络,通过生成器将一个模态样本生成另一模态样本,再通过判别器将原始样本与生成样本进行比较,生成器和判别器之间的博弈过程能够促使生成器学习到更具判别性的特征表示。
5、随着多媒体数据量的急剧增长,研究人员采用跨模态哈希方法来解决跨模态检索问题,通过将多媒体数据转化为
6、专利技术人发现,现阶段不同类型的媒体数据随着互联网和社交媒体的发展迅速涌现,这些数据中存在大量的噪声,例如数据损毁、文字描述不准确等,对于上述现有的跨模态检索方法,这些噪声在检索工作中会影响到检索结果的准确性和可靠性;其次,在潜在空间中,由于缺乏细粒度的实例注释,在没有特定结构或约束的情况下,不同模态之间没有一个明确的区分,不同模态的数据在对齐时可能会相互干扰或混淆,影响最终的检索效果。
技术实现思路
1、本专利技术为了解决上述问题,提供了一种基于注意力嵌入式变分自编码器的跨模态检索方法及系统,所述方案以变分自编码器作为基础架构,编码和解码来自不同模态的特征,通过编码器将模态数据采用概率建模的方法转化成潜在变量,从而在保留模态原始数据语义结构的同时,抑制数据中的噪声和缺失信息对模型效率的影响;同时,所述方案通过交叉模态对齐模块将潜在变量在潜在空间中进行进一步对齐,进而有效保证了跨模态检索的准确性。
2、根据本专利技术实施例的第一个方面,提供了一种基于注意力嵌入式变分自编码器的跨模态检索方法,包括:
3、在接收到跨模态检索指令时,根据所述跨模态检索指令确定第一信息和第二信息,其中,所述第一信息和第二信息为不同模态的信息;
4、将所述第一信息和第二信息输入预先训练的跨模态检索模型,获得第一信息和第二信息的相似程度,实现跨模态检索;其中,所述跨模态检索模型采用双变分自编码器网络结构,分别用于接收第一信息和第二信息两种模态的特征输入;对于第一信息和第二信息的特征输入,利用注意力嵌入的编码器获得潜在变量并映射到潜在空间中;以及,对潜在空间中两个模态的潜在变量进行对齐,并将对齐后的潜在变量利用双变分自编码器网络结构中的两个解码器分别进行解码,实现交叉重构;基于重构后的结果,获得第一信息和第二信息的相似程度。
5、进一步的,所述将对齐后的潜在变量利用双变分自编码器网络结构中的两个解码器分别进行解码,实现交叉重构,具体为:对潜在空间中两个模态的潜在变量进行对齐,并将对齐后的第一信息对应的潜在变量和原始的第二信息对应的潜在变量送至第二信息对应的解码器中进行解码,将对齐后的第二信息对应的潜在变量和原始第一信息对应的潜在变量送至第一信息对应的解码器进行解码,实现交叉重构。
6、进一步的,所述对潜在空间中两个模态的潜在变量进行对齐,具体为:对于两个模态的潜在变量,将其分别展开为三维张量;通过矩阵乘法操作,获得跨模态潜在变量相关性矩阵;基于获得的相关性矩阵与获得的三维张量,生成对齐后的潜在变量。
7、进一步的,所述第一信息为文本信息,第二信息为图像信息;或,所述第一信息为图像信息,所述第二信息为文本信息。
8、进一步的,所述注意力嵌入的编码器,具体为:对变分自编码器中的编码器嵌入池化残差多头注意力机制,所述池化残差多头注意力机制中,将key和va l ue按照原始的patch顺序进行分组;针对相邻的四个patch,在各自内部进行平均池化操作,并将相邻的四个patch合并为一个新的patch;同时,在处理query时,将原始的四个相邻的patch进行随机选择操作,并将池化的key与query相乘,计算相似性矩阵;再将相似性矩阵与va l ue相乘。
9、进一步的,在所述池化残差多头注意力机制中,在池化的key中引入残差池化连接。
10、进一步的,对于输入预先训练的跨模态检索模型的第一信息和第二信息,需要预先进行特征提取。
11、根据本专利技术实施例的第二个方面,提供了一种基于注意力嵌入式变分自编码器的跨模态检索系统,包括:
12、检索指令获取单元,其用于在接收到跨模态检索指令时,根据所述跨模态检索指令确定第一信息和第二信息,其中,所述第一信息和第二信息为不同模态的信息;
13、跨模态检索单元,其用于将所述第一信息和第二信息输入预先训练的跨模态检索模型,获得第一信息和第二信息的相似程度,实现跨模态检索;其中,所述跨模态检索模型采用双变分自编码器网络结构,分别用于接收第一信息和第二信息两种模态的特征输入;对于第一信息和第二信息的特征输入,利用注意力嵌入的编码器获得潜在变量并映射到潜在空间中;以及,对潜在空间中两个模态的潜在变量进行对齐,并将对齐后的潜在变量利用双变分自编码器网络结构中的两个解码器分别进行解码,实现交叉重构;基于重构后的结果,获得第一信息和第二信息的相似程度。
14、根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于注意力嵌入式变分自编码器的跨模态检索方法。
15、根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于注意力嵌入式变分自编码器的跨模态检索方法。
16、与现有技术相比,本专利技术的有益效果是:
17、本专利技术提供了一种基于注意力嵌入式变分自编码器的跨模态检索方法及系统,所述方案以本文档来自技高网...
【技术保护点】
1.基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,包括:
2.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述将对齐后的潜在变量利用双变分自编码器网络结构中的两个解码器分别进行解码,实现交叉重构,具体为:对潜在空间中两个模态的潜在变量进行对齐,并将对齐后的第一信息对应的潜在变量和原始的第二信息对应的潜在变量送至第二信息对应的解码器中进行解码,将对齐后的第二信息对应的潜在变量和原始第一信息对应的潜在变量送至第一信息对应的解码器进行解码,实现交叉重构。
3.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述对潜在空间中两个模态的潜在变量进行对齐,具体为:对于两个模态的潜在变量,将其分别展开为三维张量;通过矩阵乘法操作,获得跨模态潜在变量相关性矩阵;基于获得的相关性矩阵与获得的三维张量,生成对齐后的潜在变量。
4.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述第一信息为文本信息,第二信息为图像信息;或,所述第一信息为图像信息,所述第二信息为文本
5.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述注意力嵌入的编码器,具体为:对变分自编码器中的编码器嵌入池化残差多头注意力机制,所述池化残差多头注意力机制中,将Key和Value按照原始的patch顺序进行分组;针对相邻的四个patch,在各自内部进行平均池化操作,并将相邻的四个patch合并为一个新的patch;同时,在处理Query时,将原始的四个相邻的patch进行随机选择操作,并将池化的Key与Query相乘,计算相似性矩阵;再将相似性矩阵与Value相乘。
6.如权利要求5所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,在所述池化残差多头注意力机制中,在池化的Key中引入残差池化连接。
7.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,对于输入预先训练的跨模态检索模型的第一信息和第二信息,需要预先进行特征提取。
8.基于注意力嵌入式变分自编码器的跨模态检索系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于注意力嵌入式变分自编码器的跨模态检索方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于注意力嵌入式变分自编码器的跨模态检索方法。
...【技术特征摘要】
1.基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,包括:
2.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述将对齐后的潜在变量利用双变分自编码器网络结构中的两个解码器分别进行解码,实现交叉重构,具体为:对潜在空间中两个模态的潜在变量进行对齐,并将对齐后的第一信息对应的潜在变量和原始的第二信息对应的潜在变量送至第二信息对应的解码器中进行解码,将对齐后的第二信息对应的潜在变量和原始第一信息对应的潜在变量送至第一信息对应的解码器进行解码,实现交叉重构。
3.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述对潜在空间中两个模态的潜在变量进行对齐,具体为:对于两个模态的潜在变量,将其分别展开为三维张量;通过矩阵乘法操作,获得跨模态潜在变量相关性矩阵;基于获得的相关性矩阵与获得的三维张量,生成对齐后的潜在变量。
4.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述第一信息为文本信息,第二信息为图像信息;或,所述第一信息为图像信息,所述第二信息为文本信息。
5.如权利要求1所述的基于注意力嵌入式变分自编码器的跨模态检索方法,其特征在于,所述注意力嵌入的编码器,具体为:对变分自编码器中的编码器嵌入池...
【专利技术属性】
技术研发人员:耿玉水,周凯莉,赵晶,杨金晓,邢义昀,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。