基于Transformer的翻译模型的专业术语词汇对齐替换方法技术

技术编号：34845835 阅读：16 留言：0更新日期：2022-09-08 07:44

本发明专利技术公开了一种基于Transformer的翻译模型的专业术语词汇对齐替换方法，构建并训练基于Transformer的翻译模型，将待翻译的源语言文本输入至训练好的翻译模型，翻译得到目标语言的初始译文，同时获取源语言单词和目标语言单词的多个参考相关性矩阵，根据参考相关性矩阵对源语言单词和目标语言单词进行对齐，得到对齐单词对，查找源语言句子中是否存在预先设置的专业术语库中的源语言术语，如果存在则查询初始译文中与该源语言术语对齐的单词集合，将初始译文中与该源语言术语对齐的目标语言单词替换为专业术语译文，从而得到最终译文。本发明专利技术利用翻译模型中的相关性矩阵实现源语言和译文的对齐，并利用专业术语库对译文进行修正，从而提高译文的准确性。从而提高译文的准确性。从而提高译文的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer的翻译模型的专业术语词汇对齐替换方法

[0001]本专利技术属于机器翻译
，更为具体地讲，涉及一种基于Transformer的翻译模型的专业术语词汇对齐替换方法。

技术介绍

[0002]机器翻译是通过计算机将一种源语言转换为另一种目标语言的过程。比如说日常中经常会使用到的翻译软件，将英语翻译成中文，其中的英语就是一种源语言，而中文则是目标语言。人工翻译尽管精度很高，但是费时费力。而机器翻译虽然翻译的译文没有人工翻译的准确，但是其速度却比人工翻译快得多。因此，当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现出来了。对于那些使用人工翻译无法完成的事情，使用机器翻译可能只需花费几个小时甚至几分钟就能完成。而翻译对人类起到了重要的作用。一方面，由于语言文字、文化和地理位置的差异性，使得翻译成为一个重要的需求；另一方面，翻译也加速了不同文明的融会贯通，促进了世界的发展。正因为翻译的需求如此巨大，机器翻译一直是最具有研究意义的课题之一。
[0003]如今，在一些条件下，机器翻译的译文结果已经接近人工翻译的结果。但是，在针对一些特定的领域，比如说医疗领域时，其效果还是不尽如人意。因为医疗领域拥有非常多的专用术语，这些专用术语在现有的公开平行语料数据集中并不常见，并且也难以被模型学习到。而在某些特定的场景下，对于这些专业术语的翻译准确率要求非常高，所以如何利用术语库，对翻译模型得到的译文进行修正与改进是让翻译模型适应一些特定领域需要解决的重要的问题。传统...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的翻译模型的专业术语词汇对齐替换方法，其特征在于包括以下步骤：S1：构建基于Transformer的翻译模型，包括M个编码层和M个解码层，并采用预先收集的源语言与目标语言的平行语料对该翻译模型进行训练；S2：将待翻译的源语言文本输入至步骤S1训练好的基于Transformer的翻译模型，翻译得到目标语言的初始译文，记源语言文本中单词数量为D
r
，初始译文中目标语言单词数量为D
t
；在得到初始译文的同时获取翻译模型中M个解码层中交叉注意力机制所计算出的大小为D
t
×
D
r
的相关性矩阵，每个元素代表相应位置的源语言单词和目标语言单词之间的相关性值；根据需要选取M个解码层中的N个解码层作为参考解码层，对应相关性矩阵作为参考相关性矩阵R
n
，n＝1,2,
…
,N；S3：对于初始译文中每个目标语言单词，分别确定其在N个参考相关性矩阵R
n
中相关性值最大的源语言文本中源语言单词作为待定源语言单词W
d,n
，并将其对应的相关性值记为C
d,n
，d＝1,2,
…
,D
t
；将每个目标语言单词对应的N个待定源语言单词W
d,n
构成该目标语言单词的待定源语言单词集合φ
d
，记待定源语言单词集合φ
d
中待定源语言单词数量为K，对于第k个待定源语言单词，统计其出现的频率f
k,n
...

【专利技术属性】
技术研发人员：王晓玲，郑焕然，朱威，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人