【技术实现步骤摘要】
多模态神经机器翻译的双级交互式多模态混合编码器及编码方法
[0001]本专利技术涉及多模态神经机器翻译的双级交互式多模态混合编码器及编码方法, 属于自然语言处理
技术介绍
[0002]多模态神经机器翻译(MNMT)最近引起了广泛关注,它是神经机器翻译的一 个重要方向(Huang et al.2016;Calixto,Liu,and Campbell 2017)。与传统的基于文本 的神经机器翻译不同,多模态神经机器翻译旨在使用图像来指导文本机器翻译,只 需要少量数据即可实现卓越的翻译性能。目前大多数工作都集中在用于训练模型的 Multi30K数据集上(Elliott等人,2016年)。
[0003]如何探索和提取相关的视觉特征以增强文本机器翻译是多模态神经机器翻译的 关键。为了实现这一目标,最近进行了许多研究,大致包括:(1)应用注意力机制 来提取有用的视觉上下文信息(Calixto、Liu和Campbell 2017;Delbrouck和Dupont2017;Helcl et al.2018;Zhou et al.2018)。(2)使用视觉特征作为额外的源语言输入 (Huang et al.2016;Calixto,Liu,and Campbell 2017)来扩展数据量,或使用连接的方 法(Yao and Wan 2020)连接到源语言句子。(3)利用视觉上下文特征通过门控机制 增强文本(Yin et al.2020;Lin et al.2020);此外,Nishihara等人采用多模态神经机 器 ...
【技术保护点】
【技术特征摘要】
1.多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:包括源文本表征和视觉表征模块、源语句自注意力模块、文本引导视觉区域特征提取模块、多模态视觉
‑
文本注意力模块、视觉
‑
文本多模态混合模块;所述源文本表征和视觉表征模块用于对数据集中的数据进行源文本表征和视觉表征;所述源语句自注意力模块用于通过文本自注意力收集附近有关单词的信息来生成源句子的上下文表示;所述文本引导视觉区域特征提取模块用于提取文本引导视觉区域特征;所述多模态视觉
‑
文本注意力模块用于通过多模态视觉文本注意融合视觉信息和文本信息;所述视觉
‑
文本多模态混合模块用于采用多模态混合策略混合文本特征和网格视觉特征,之后经过一个位置前馈网络。2.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述数据集是通过如下方式得到的:通过国际翻译大赛WMT2018:mltimodel
‑
task1下载Multi30K数据集,其中训练、验证和测试集分别包含29k、1014和1000个文本图像对;额外的还使用包含1000个文本
‑
图像对的WMT17测试集和包含461个文本图像对的模糊MSCOCO测试集来评估模型;然后通过字节对编码分割和10000次合并操作直接使用预处理后的句对。3.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述源文本表征和视觉表征模块包括用于实现如下内容:用于对数据进行源文本表征和视觉表征;源文本表征和视觉表征模块中源语言句子通过传统的带有位置嵌入的嵌入层表征,图像分别通过预训练的Resnet
‑
101和Faster R
‑
CNN提取的图片表征为网格视觉特征和区域视觉特征;分别用和z
k
表示源语言句子和对应图像的第k个数据对,其中n是源语言句子x
k
的源句子长度,源文本表征和视觉表征表示如下:源文本表征和视觉表征表示如下:源文本表征和视觉表征表示如下:其中,emb
x
是具有词嵌入和位置嵌入的文本表征层,emb
z,g
是基于Resnet
‑
101的网格视觉特征提取层,emb
z,r
是基于Faster R
‑
CNN的区域视觉特征提取层,为视觉表征中的网格视觉特征,为视觉表征中的区域视觉特征。4.根据权利要求1所述的多模态神经机器翻译的双级交互式多模态混合编码器,其特征在于:所述源语句自注意力模块用于通过文本自注意力收集附近有关单词的信息来生成源句子的上下文表示,即文本特征表示为:其中,l={0,1,
…
,5}表示Transformer的层数,Multihead(*)表示多模态自注意力,文本特征作为查询/键/值矩阵,为源文本表征。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。