科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置制造方法及图纸

技术编号:34433768 阅读:15 留言:0更新日期:2022-08-06 16:14
本发明专利技术提供一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。提高了科技资讯跨媒体检索的准确率。提高了科技资讯跨媒体检索的准确率。

【技术实现步骤摘要】
科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置


[0001]本专利技术涉及信息检索
,尤其涉及一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置。

技术介绍

[0002]科技资讯聚焦了中外高新技术的前沿动态。实时跟进最新的科技资讯,有助于促进国家战略科技力量的发展,驱动科技创新,进而确保国家高质量发展。科技资讯中包含大量的多媒体信息(如图像、文本等),具备体量大、来源丰富、类型多样等特点。面向科技资讯进行跨媒体检索,能够从多源异构的海量科技资源中获取目标科技资讯,以便于设计出符合用户需求的应用,包括科技资讯推荐、个性化科技资讯检索等,而该工作的核心便是跨媒体检索。
[0003]跨媒体检索(Cross

media Retrieval,CMR)是信息检索领域中的一个重要研究方向,其目的是根据给定媒体的信息检索出语义相似的其他媒体的信息。面向科技资讯数据的跨媒体检索与通用领域的跨媒体检索有一定的区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域的技术呈爆炸式增长,相关的科技资讯更新迭代更为迅速,导致科技资讯中涌现了大量的新颖专业术语。同时受限于科技资讯的字数限制,不同媒体间的科技资讯数据存在更为明显的语义鸿沟问题,增加了跨媒体检索的难度。
[0004]现有技术通常采用深度学习的方式构建检索模型,然而现有的跨媒体检索模型通常只关注一对一的跨媒体数据,对语义关注较少,无法适应对语义复杂的科技资讯专业术语的检索要求,难以实现在一对多的跨媒体检索需求

技术实现思路

[0005]本专利技术实施例提供了一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术在科技资讯跨媒体检索过程中由于词汇语义复杂导致的准确度差,且难以进行一对多检索的问题。
[0006]一方面,本专利技术提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,包括:获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间的得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述
第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;其中,所述联合损失函数的计算步骤包括:将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
[0007]在一些实施例中,所述第一特征提取模型为VGG

fc7网络模型,所述第二特征提取模型为BoW模型;所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构为三层多层感知机构成;所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
[0008]在一些实施例中,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:;其中,表示所述标签预测损失,表示所述分类网络的参数,是第i个样本所属科技领域类别的真实值,是第i个样本中图像特征向量所属科技领域类别的概率分布,是第i个样本中文字特征向量所属科技领域类别的概率分布。
[0009]在一些实施例中,所述原始语义一致性损失采用范数表达,计算式为:
;其中,表示所述原始语义一致性损失,表示所述原始图像数据的语义分布,等同于所述图像特征向量,表示所述原始文字数据的语义分布,等同于所述文字特征向量;所述隐嵌入空间语义一致性损失采用范数表达,计算式为:;其中,表示所述隐嵌入空间语义一致性损失,表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,表示所述第一基础映射网络的参数; 表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,表示所述第二基础映射网络的参数;所述媒体间语义损失计算式为:;其中,表示所述媒体间语义损失。
[0010]在一些实施例中,所述媒体约束损失的计算式为:;;;其中,表示所述媒体约束损失,表示图像数据约束损失,表示文字数据约束损失,表示所述第一基础映射网络的输出,表示所述第二基础映射网络的输出,表示 输入所述第一精炼映射模型后的输出、表示 输入所述第二精炼映射模型后的输出,表示所述第一基础映射网络的参数,表示所述第二基础映射网络的参数,表示所述第一精炼映射模型的参数,表示所述第二精炼映射模型的参数。
[0011]在一些实施例中,所述特征映射网络损失的计算式为:;
其中,表示所述特征映射网络损失,和为可调节参数;所述对抗损失的计算式为:;其中,表示对抗损失,表示所述媒体判别器的参数,表示所述媒体判别器对所述图像特征向量识别结果的概率分布,表示所述媒体判别器对所述文字特征向量识别结果的概率分布。
[0012]在一些实施例中,以最小化所述联合损失函数训练所述特征映射器,表达式为:;最大化所述联合损失函数训练所述媒体判别器,表达式为:。
[0013]另一方面,本专利技术提供一种面向科技资讯的跨媒体检索方法,包括:获取待查询数据;若所述待查询数据为图像,将所述待查询数据输入第一特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,包括:获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间的得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;其中,所述联合损失函数的计算步骤包括:将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。2.根据权利要求1所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述第一特征提取模型为VGG

fc7网络模型,所述第二特征提取模型为BoW模型;所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构为三层多层感知机构成;所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。3.根据权利要求2所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
;其中,表示所述标签预测损失,表示所述分类网络的参数,是第i个样本所属科技领域类别的真实值,是第i个样本中图像特征向量所属科技领域类别的概率分布,是第i个样本中文字特征向量所属科技领域类别的概率分布。4.根据权利要求3所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述原始语义一致性损失采用范数表达,计算式为:;其中,表示所述原始语...

【专利技术属性】
技术研发人员:杜军平李昂李文玲邵蓥侠薛哲
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1