训练翻译模型的方法和装置制造方法及图纸

技术编号:9618281 阅读:83 留言:0更新日期:2014-01-30 06:05
本发明专利技术提出一种训练翻译模型的方法和装置,其中,该方法包括:根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,第一类关联语句包括第一枢轴词语和与第一枢轴词语相关的第一关联字符;根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,第二类关联语句包括第二枢轴词语和与第二枢轴词语相关联的第二关联字符;根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、第一对应关系和第二对应关系建立第一类语言词语与第二类语言词语之间的第三对应关系,并根据第三对应关系训练预设的翻译模型。上述方法在有效地降低模型规模的同时提高了翻译质量。

Method and apparatus for training translation models

The invention provides a method and device for training translation model in which the method includes: according to the first bilingual corpus to establish the first relationship between language words first class and the first class Association statement in which the first class Association statement includes a first pivot and the first words related characters associated with the first pivot of words; the establishment of second corresponding relationship between the second types of words and second kinds of related statements according to the second bilingual corpus the second class Association statement includes second words and second pivot pivot and the associated second related characters; establish third corresponding relationship between first language words and second words, second words according to the first pivot pivot words first, related characters, second characters, the first correlation relation and second corresponding relation, and according to the third Training model of Presupposition in correspondence training. These methods can effectively reduce the size of the model and improve the quality of translation.

【技术实现步骤摘要】
训练翻译模型的方法和装置
本专利技术涉及机器翻译领域,特别涉及一种训练翻译模型的方法和装置。
技术介绍
统计机器翻译已经逐渐成为一种主流的机器翻译方法。统计机器翻译系统的翻译质量主要依赖于双语语料的数量和质量,如果双语语料数量越多、噪声信息越小,则统计机器翻译系统的翻译质量越高。但是,在双语语料资源比较稀缺的情况下,需要使用基于Pivot Language (枢轴语言)的翻译方法构建双语翻译模型。以中日翻译为例,由于中日双语语料资源比较少,因此可将英语作为枢轴语言,并通过中英、英日的翻译模型导出中日的翻译模型,例如,可通过英语“good weather”,建立起中文“天气好”和日文“天気# ^ P”之间的对应关系。但是,大多语言中的词语都可能有多个释义,这使得枢轴语言中的一个词语在双语中分别对应m和η个词语,则根据枢轴语言确定的双语对应关系则有mXn个。例如,对于英语“bank”在中文中对应“岸”和“银行”,在日文中对应“边”和“銀行”,因此,可得到如下对应关系:表1现有技术基于枢轴语言构造的双语词语对应关系表

【技术保护点】
一种训练翻译模型的方法,其特征在于,包括以下步骤:根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符;根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符;根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及根据所述第三对应关系训练预设的翻译模型。

【技术特征摘要】
1.一种训练翻译模型的方法,其特征在于,包括以下步骤: 根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符; 根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符; 根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及 根据所述第三对应关系训练预设的翻译模型。2.如权利要求1所述的方法,其特征在于,所述根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,具体包括: 在所述第一类双语语料中提取所述第一类语言词语; 在所述第一类双语语料中提取与所述第一类语言词语具有互译关系的所述第一枢轴词语,并进一步提取与所述第一枢轴词语相关联的第一关联字符;以及 根据所述第一枢轴词语和所述第一关联字符生成所述第一类关联语句,并建立所述第一类语言词语与所述第一类关联语句之间的第一对应关系。3.如权利要求2所述的方法,其特征在于,所述在第一类双语语料中提取与所述第一枢轴词语相关联的第一关联字符,具体包括: 在所述第一类双语语料中获 取在所述第一枢轴词语之前m个字符,以及在所述第一枢轴词语之后η个字符,并将所述m个字符和所述η个字符作为所述第一关联字符,其中,m,η为自然数,且m+n > O。4.如权利要求2所述的方法,其特征在于,所述根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,具体包括: 在所述第二类双语语料中提取所述第二类语言词语; 在所述第二类双语语料中提取与所述第二类语言词语具有互译关系的所述第二枢轴词语,并进一步提取与所述第二枢轴词语相关联的第二关联字符;以及 根据所述第二枢轴词语和所述第二关联字符生成所述第二类关联语句,并建立所述第二类语言词语与所述第二类关联语句之间的第二对应关系。5.如权利要求4所述的方法,其特征在于,所述在第二类双语语料中提取与所述第二枢轴词语相关联的第二关联字符,具体包括: 在所述第二类双语语料中获取在所述第二枢轴词语之前P个字符,以及在所述第二枢轴词语之后q个字符,并将所述P个字符和所述q个字符作为所述第二关联字符,其中,P,q为自然数,且P+q > O。6.如权利要求1-5任一项所述的方法,其特征在于,所述根据第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系,具体包括: 根据所述第一对应关系获取所述第一类语言词语对应的第一类关联语句,并获取所述第一类关联语句包括的所述第一枢轴词语和所述第一关联字符;根据所述第二对应关系获取与所述第一类关联语句一致的第二类关联语句对应的至少一个第二类语言词语;以及 如果存在第二类语言词语对应的第二类关联语句中的所述第二枢轴词语与所述第一枢轴词语一致,且第二类关联语句中的第二关联字符与所述第一关联字符一致,则...

【专利技术属性】
技术研发人员:何中军朱晓宁吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1