基于降噪原型序列的汉越神经机器翻译方法技术

技术编号：34901662 阅读：16 留言：0更新日期：2022-09-10 14:08

本发明专利技术涉及基于降噪原型序列的汉越神经机器翻译方法，属自然语言处理领域。本发明专利技术包括：将汉语和越南语的句子语映射到向量空间，利用跨语言相似性检索出目标端原型序列；接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖；之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配；最后将处理好的原型序列作为模板信息，应用在双编码器

全部详细技术资料下载

【技术实现步骤摘要】
基于降噪原型序列的汉越神经机器翻译方法
[0001]本专利技术涉及基于降噪原型序列的汉越神经机器翻译方法，属自然语言处理领域。

技术介绍

[0002]原型序列(prototype)旨在用目标端语言信息指导机器翻译，已有的工作主要是在资源丰富场景下,利用相似性翻译作为目标端原型序列,提升神经机器翻译的性能。
[0003]在缺乏汉语到越南语平行语料的情况下，利用源端相似性检索的方法得不到有价值的原型序列。利用跨语言相似性检索是一种有效的方式，然而原型序列由多个句子组成，每个句子中可能包含不同的实体、数字以及稀有词。一方面，基于相似性检索的原型序列中所含的实体、数字多数情况下和源句子中的实体、数字无法对应，这将会在翻译模型的训练过程中引入噪声。另一方面，相似性较低的原型序列会包含稀有词，翻译模型学习这部分原型序列时需要耗费更多时间以及运算成本，此外，稀有词的词嵌入在模型计算损失时也会带来一定误差，这部分的原型序列对模型来说指导作用是偏弱的。此外，越南语是一种拼音文字，书写时以音节作为最小粒度。在传统汉越神经机器翻译中，往往会使用切分后的子词粒度进行模型训练，这虽然可以提升模型的翻译表现，但却给一些需要进行词级粒度处理的工作带来不便。
[0004]为了在神经机器翻译中有效利用目标端的语言信息，本专利技术首先将汉语和越南语的句子语映射到向量空间，利用跨语言相似性检索出目标端原型序列；接着对子词级原型序列进行粒度还原,再依据构建好的实体词典做噪声掩盖；之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配，加大原型序列之间的...

【技术保护点】

【技术特征摘要】
1.基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述方法的具体步骤如下：Step1、将汉语
‑
越南语平行语料、越南语候选句子库进行分词处理，并利用Underthesea
‑
Vietnam NLP工具构建越南语单语词典；Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间，利用跨语言相似性检索出子词粒度的目标端原型序列，并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列；Step3、对子词级原型序列进行粒度还原，再依据构建好的实体词典做噪声掩盖，之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配，赋予原型序列参考价值；Step4、将处理好的原型序列作为模板信息，应用在双编码器
‑
单解码器结构，指导翻译任务。2.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step1的具体步骤为：Step1.1、利用Jieba分词工具对汉语语料进行分词，得到词粒度的汉语句子x，构建汉语词语表；Step1.2、利用subword
‑
nmt工具对越南语、候选句子库进行分词，得到子词粒度的越南语句子s以及音节粒度的越南语句子，构建越南语词语表；Step1.3、随后，利用Underthesea
‑
Vietnam NLP工具识别出越南语候选句子库当中的人名、地名、数字，构建出实体词典。3.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step2的具体步骤为：Step2.1、将词粒度的汉语句子x输入编码器，得到高维向量E
x
；将子词粒度的越南语句子s输入编码器，得到高维向量E
s
，x与s之间的相关性分数通过计算得出：按照分数r(x
i
，s
i
)筛选出与第i个源语言句子x
i
相关性高的前3个子词粒度的目标语言句子作为目标端语言原型序列S＝{s
j，1
，s
j，2
，s
j，3
}；Step2.2、依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音节粒度的原型序列S1。4.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法，其特征在于：所述Step3的具体步骤为：Step3.1、将检索出的子词粒度的目标端语言原型序列S＝{s
j，1
，s
j，2
，s
j，3
}中，按照
‘
@@
’
符号为边界，将拆分过的音节还原；Step3.2、将音节粒度的原型序列S1遍历一遍词典，对照出音节粒度原型序列中实体的位置；Step3.3、对比Step3.1与Step3.2当中实体、数字的位置，将未处理过的子词粒度的目标端语言原型序列S中，实体、数字的位置用符号
‘
＜mask＞
’
替换，得到处理后的原型序列S
′
＝{s
′
j，1
，s
′
j，2
，s
′
j，3
}；Step3.4、根据越南语词语表，统计子词级候选句子库中的句子进行词频统计，将出现
频率低于10％的词作为稀有词ω
j
，计算处理后的子词粒度的原型序列S
′
＝{s
′
j，1
，s
′
j，2
，s
′
j，3
}中每个句子(s
′
j，k
|k＝1，2，3)的稀有词ω
...

【专利技术属性】
技术研发人员：赖华，杨汉清，余正涛，于志强，相艳，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人