多模态神经机器翻译的双级交互式多模态混合编码器及编码方法技术

技术编号:34879213 阅读:24 留言:0更新日期:2022-09-10 13:35
本发明专利技术涉及多模态神经机器翻译的双级交互式多模态混合编码器及编码方法。编码器首先提取图片特征为网格特征和区域特征,再提出了文本引导的视觉特征提取方法,采用文本

【技术实现步骤摘要】
多模态神经机器翻译的双级交互式多模态混合编码器及编码方法


[0001]本专利技术涉及多模态神经机器翻译的双级交互式多模态混合编码器及编码方法, 属于自然语言处理


技术介绍

[0002]多模态神经机器翻译(MNMT)最近引起了广泛关注,它是神经机器翻译的一 个重要方向(Huang et al.2016;Calixto,Liu,and Campbell 2017)。与传统的基于文本 的神经机器翻译不同,多模态神经机器翻译旨在使用图像来指导文本机器翻译,只 需要少量数据即可实现卓越的翻译性能。目前大多数工作都集中在用于训练模型的 Multi30K数据集上(Elliott等人,2016年)。
[0003]如何探索和提取相关的视觉特征以增强文本机器翻译是多模态神经机器翻译的 关键。为了实现这一目标,最近进行了许多研究,大致包括:(1)应用注意力机制 来提取有用的视觉上下文信息(Calixto、Liu和Campbell 2017;Delbrouck和Dupont2017;Helcl et al.2018;Zhou et al.2018)。(2)使用视觉特征作为额外的源语言输入 (Huang et al.2016;Calixto,Liu,and Campbell 2017)来扩展数据量,或使用连接的方 法(Yao and Wan 2020)连接到源语言句子。(3)利用视觉上下文特征通过门控机制 增强文本(Yin et al.2020;Lin et al.2020);此外,Nishihara等人采用多模态神经机 器翻译的视觉和文本输出分布的一致性提高模型性能。
[0004]尽管这些方法取得了成功,但这些方法仍然存在各种缺点。网格特征和区域特 征是从图像中提取的两种主要的常见视觉特征。早期方法中使用了网格特征(Calixto、 Elliott和Frank 2016;Calixto、Liu和Campbell 2017)。然而,网格特征包含大量 与文本无关的信息(噪声),如图2左侧所示,只有女孩和网球拍是与文本相关的信 息(有用信息)。在给定图像的所有网格特征中,很大一部分与相应的文本无关,直 接融合网格特征和文本特征可能会引入不相关的视觉信息,例如背景视觉特征。
[0005]区域特征可以提供对象级别的信息,一些显着区域通常对文本级别的机器翻译 有用。然而,区域特征仍然因缺乏全局视觉特征和上下文信息而受到限制。如图2 右侧所示,源语言中的'a young lady'和'tennis racket'分别与黑色框所在区域密切相关, 有助于机器翻译,但仍然有很多不相关的机器翻译的对象信息,如白色框所在区域 所示。此外,区域特征缺乏全局场景信息。大多数早期的MNMT方法仅使用网格 特征(Yao and Wan 2020)或区域特征(Yin et al.2020),无法提供足够的视觉指导。
[0006]为了解决视觉特征融合问题,提出了用于多模态机器翻译的双级交互式多模态 混合编码器(DLMulMix)。利用网格特征和区域特征来丰富文本表示。我们首先使 用标准Transformer嵌入层来初始化文本特征,并使用预训练的Resnet

101网络来初 始化网格特征和区域特征。然后利用文本引导的视觉编码器通过文本

视觉门控机制 和区域

网格自注意力机制来提取与文本相关的区域特征。最后,提出了文本

视觉多 模态混合模块,通过
的信息来生成源句子的上下文表示,即文本特征表示为:
[0024][0025]其中,l={0,1,

,5}表示Transformer的层数,Multihead(*)表示多模态自注 意力,文本特征作为查询/键/值矩阵,为源文本表征。
[0026]进一步地,所述文本引导视觉区域特征提取模块中包括:
[0027]基于文本的文本

视觉门控机制:采用基于文本的文本视觉门控机制来过滤掉源 句中不相关的区域特征,提出的多模态门控模块如下:
[0028][0029][0030]这里是与文本相关的区域特征,α是区域特征和文本特征之间的相似权重,和是参数矩阵,为源文本表征,为视觉表征中的区域视觉特征;
[0031]视觉间交叉注意模块:在区域特征和网格特征之间构建了一个视觉间的交叉注 意模块,用于获得与文本相关的区域视觉特征的全局视觉特征;具体来说,首先连 接网格视觉特征和区域视觉特征如下:
[0032][0033]其中,||表示连接操作,然后使用视觉间的交叉注意力来生成与文本互连接且一 致的有效区域特征网络,与文本自注意力类似,视觉间的交叉注意力视觉特征表示 如下:
[0034][0035]其中,为视觉表征中的网格视觉特征。
[0036]进一步地,所述多模态视觉

文本注意力模块包括用于:
[0037]使用文本特征作为查询矩阵,使用视觉特征作为键/值矩阵,视觉特征和 文本特征与多模态视觉

文本注意力融合,因此有:
[0038][0039]通过多模态视觉文本注意融合视觉信息和文本信息。
[0040]进一步地,所述视觉

文本多模态混合模块具体包括用于:
[0041]使用多模态混合来融合两种不同的模态文本和图像方式,表示为:
[0042][0043]其中β是混合超参数服从Beta分布,这是平衡文本特征和视觉特征的比率,g(.) 是线性变换函数,是第k个源句子及其对应图像的混合多模态特征;
[0044]最终,与传统的Transformer模型架构类似,采用位置前馈网络FFN,形成源句 子的表示S
l
为:
[0045][0046]进一步地,在编码器的第六层输出特征作为解码器的输入,解码器采用传统的 解码器结构,然后解码器的输出层使用线性变换和softmax函数去预测最大概率生成 的句
子;所述解码器包括如下内容:
[0047]解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成: 1)目标语言自注意力层;2)跨语言注意力层;3)位置前馈网络层;最后将解 码器最后一层的输出作为softmax输入,由softmax层预测目标句的概率分布,将其 表示为:
[0048][0049]Y=Cross

MultiHead(Q,S
l
,S
l
)
[0050]L=FFN(Y)
[0051]P=Softmax{W
s
L+b}
[0052]其中,是目标句子表征,b和W
s
是参数,S
l
是解码器的输出。
[0053]第二方面,本专利技术实施例还提供了多模态神经机器翻译的双级交互式多模态混 合编码方法,该方法包括利用上述第一方面所述的编码器进行编码的方法。
[0054]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:包括源文本表征和视觉表征模块、源语句自注意力模块、文本引导视觉区域特征提取模块、多模态视觉

文本注意力模块、视觉

文本多模态混合模块;所述源文本表征和视觉表征模块用于对数据集中的数据进行源文本表征和视觉表征;所述源语句自注意力模块用于通过文本自注意力收集附近有关单词的信息来生成源句子的上下文表示;所述文本引导视觉区域特征提取模块用于提取文本引导视觉区域特征;所述多模态视觉

文本注意力模块用于通过多模态视觉文本注意融合视觉信息和文本信息;所述视觉

文本多模态混合模块用于采用多模态混合策略混合文本特征和网格视觉特征,之后经过一个位置前馈网络。2.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述数据集是通过如下方式得到的:通过国际翻译大赛WMT2018:mltimodel

task1下载Multi30K数据集,其中训练、验证和测试集分别包含29k、1014和1000个文本图像对;额外的还使用包含1000个文本

图像对的WMT17测试集和包含461个文本图像对的模糊MSCOCO测试集来评估模型;然后通过字节对编码分割和10000次合并操作直接使用预处理后的句对。3.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述源文本表征和视觉表征模块包括用于实现如下内容:用于对数据进行源文本表征和视觉表征;源文本表征和视觉表征模块中源语言句子通过传统的带有位置嵌入的嵌入层表征,图像分别通过预训练的Resnet

101和Faster R

CNN提取的图片表征为网格视觉特征和区域视觉特征;分别用和z
k
表示源语言句子和对应图像的第k个数据对,其中n是源语言句子x
k
的源句子长度,源文本表征和视觉表征表示如下:源文本表征和视觉表征表示如下:源文本表征和视觉表征表示如下:其中,emb
x
是具有词嵌入和位置嵌入的文本表征层,emb
z,g
是基于Resnet

101的网格视觉特征提取层,emb
z,r
是基于Faster R

CNN的区域视觉特征提取层,为视觉表征中的网格视觉特征,为视觉表征中的区域视觉特征。4.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述源语句自注意力模块用于通过文本自注意力收集附近有关单词的信息来生成源句子的上下文表示,即文本特征表示为:其中,l={0,1,

,5}表示Transformer的层数,Multihead(*)表示多模态自注意力,文本特征作为查询/键/值矩阵,为源文本表征。...

【专利技术属性】
技术研发人员:郭军军叶俊杰余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1