机器翻译方法和装置制造方法及图纸

技术编号:17516455 阅读:38 留言:0更新日期:2018-03-21 01:03
本发明专利技术提供机器翻译方法和机器翻译装置。根据一个实施方式的机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。

Machine Translation methods and devices

The invention provides a Machine Translation method and a Machine Translation device. According to one embodiment includes a Machine Translation device, an input unit, the input of the first language sentence; the division unit has been divided into multiple phrases of the sentence; translation options search unit, each search in the translation model the multiple phrases of second language translation options; selection unit, N it will be a high probability of translation options selected for decoding, N is an integer of 1 or more; the combination unit of the multiple phrases before N translation options were combined to obtain a plurality of translation hypotheses; translation hypothesis search unit, the user to find the historical phrase translation hypothesis; and improve the unit. The increase in the history of the user in the phrase translation hypothesis score.

【技术实现步骤摘要】
机器翻译方法和装置
本专利技术涉及自然语言处理领域,具体涉及机器翻译方法和机器翻译装置。
技术介绍
当前的机器翻译(MachineTranslation,缩写为MT)系统有很多,包括在线的机器翻译系统,例如谷歌翻译、百度翻译、有道翻译、Systran等。这些机器翻译系统虽然翻译质量没有完全达到理想的翻译效果,但是对于普通的翻译需求,还是有很大的参考价值。
技术实现思路
本专利技术者们发现,当使用机器翻译系统翻译专业资料时,很难得到很好的翻译结果。原因是:现有的统计机器翻译系统都是基于训练语料而获得的,这些训练语料有限,不可能涵盖所有的领域,或者穷尽人类所有可能表达的话语。因此,现有的机器翻译系统存在领域内翻译效果相对较好但跨领域翻译效果差的问题。对于领域内测试集来说,训练语料中或多或少有一些片段可以命中测试集中的片段,甚至整句命中也有可能。而对于领域外的测试集,训练语料中几乎没有任何片段可以命中测试集中的任何片段,这就导致在翻译的时候出现大量的未登录词,因此翻译效果差。而专业资料一般属于领域外。专业语料一般是从事某个领域的人使用的语料。所以他可能积累了很多该专业领域的相关资料,如果能够有效利用该用户历史积累的一些文档语料,则能够改进机器翻译效果。本专利技术的实施方式提出了利用用户历史文档(UserHistoryDocuments,缩写为UHD)改进机器翻译的机器翻译方法和机器翻译装置,可以有效改进机器翻译的质量。具体地,提供了以下技术方案。[1]一种机器翻译方法,包括:输入第一语言的句子;对上述句子进行划分得到多个短语;在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;将概率高的前N个翻译选项选出用于解码,N是1以上的整数;对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;在用户历史短语对中查找上述翻译假设;和提高在上述用户历史短语对中存在的翻译假设的得分。上述方案的机器翻译方法,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。[2]一种机器翻译方法,包括:输入第一语言的句子;对上述句子进行划分得到多个短语;在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。上述方案的机器翻译方法,通过将与用户相关,但是概率很低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。[3]根据上述方案[2]所述的机器翻译方法,还包括:对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;在上述用户历史短语对中查找上述翻译假设;和提高在上述用户历史短语对中存在的翻译假设的得分。[4]根据上述方案[2]或[3]所述的机器翻译方法,其中,上述在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码的步骤包括:对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。[5]根据上述方案[1]和[3]-[4]中的任一方案所述的机器翻译方法,其中,上述提高在上述用户历史短语对中存在的翻译假设的得分的步骤中,上述翻译假设的长度越长,将其得分提高地越高。[6]根据上述方案[1]和[3]-[5]中的任一方案所述的机器翻译方法,其中,上述提高上述翻译假设的得分的步骤基于以下公式(1)进行:其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度。[7]根据上述方案[1]和[3]-[5]中的任一方案所述的机器翻译方法,其中,上述提高在上述用户历史短语对中存在的翻译假设的得分的步骤包括:基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分,提高其得分。[8]根据上述方案[1]、[3]-[5]和[7]中的任一方案所述的机器翻译方法,其中,上述基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分提高其得分的步骤基于以下公式(2)进行:其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度,Score_in_UHP(TH)是上述翻译假设在上述用户历史短语对中的得分。[9]根据上述方案[1]-[8]中的任一方案所述的机器翻译方法,其中,在基于用户的用户历史文档获取上述用户历史短语对时,没有设置短语的最大长度。[10]一种机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。上述方案的机器翻译装置,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。[11]一种机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;第一翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和第二翻译选项查找单元,其在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。上述方案的机器翻译装置,通过将与用户相关,但是概率很低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。[12]根据上述方案[11]所述的机器翻译装置,还包括:组合单元,其对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在上述用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。[13]根据上述方案[11]或[12]所述的机器翻译装置,其中,上述第二翻译选项查找单元,对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。[14]根据上述方案[10]和[12]-[13]中的任一方案所述的机器翻译装置,其中,上述提高单元,上述翻译假设的长度越长,将其得分提高地越高。[15]根据上述方案[10]和[12]-[14]中的任一方案所述的机本文档来自技高网...
机器翻译方法和装置

【技术保护点】
一种机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。

【技术特征摘要】
1.一种机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。2.一种机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;第一翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和第二翻译选项查找单元,其在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。3.根据权利要求2所述的机器翻译装置,还包括:组合单元,其对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在上述用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。4.根据权利要求2所述的机器翻译装置,其中,上述第二翻译选项查找单元,对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。5.根据权利要求1或3所述的机器翻译装置,其中,上述提高单元,上述翻译假设的长度越长,将其得分提高地越高。6.根据权利要求5所述的机器翻译装置,其中,上述提高单元基于以下公式(1)提高上述翻译假设的得分:

【专利技术属性】
技术研发人员:薛征山张大鲲郭继冲郝杰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1