一种多个机器翻译系统融合的方法及装置制造方法及图纸

技术编号:9794523 阅读:204 留言:0更新日期:2014-03-21 19:02
一种多个机器翻译系统融合的方法及装置,本发明专利技术涉及到机器翻译的相关领域。本发明专利技术是要解决传统的在后处理上做系统融合的方法没有充分考虑解码过程的信息和融合不能充分考虑解码中搜索空间的问题。多个机器翻译系统融合的装置包括预处理器,短语抽取器,语言模型生成器,多个机器翻译系统训练器与解码器;一、机器翻译系统的预处理;二、建立每个翻译系统的翻译超图;三、融合两个翻译超图并对训练集合进行训练;其中,所述训练包含两个部分:融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练MERT;四、对测试集合进行解码生成翻译结果,对翻译结果进行评分。本发明专利技术应用于机器翻译领域。

【技术实现步骤摘要】
一种多个机器翻译系统融合的方法及装置
本专利技术涉及多个机器翻译系统融合的方法及装置,属于机器翻译的相关领域。
技术介绍
随着计算机的快速发展,利用计算机来实现不同语种之间的翻译技术,早已为人们所熟知了。机器翻译系统融合是把多个系统的输出N-best结果进行融合,生成新翻译结果。而且已证明融合的翻译结果要好于单个系统的输出。按照融合的粒度来分包括句子级,短语级和词级,最近在基于混淆网络的词一级系统融合技术获得了大幅性能提高,但是这些方法都是在机器翻译的后处理上来进行融合。传统的在后处理上做系统融合的方法没有充分考虑解码过程的信息,而且后处理上的融合不能充分考虑解码中巨大的搜索空间。本专利技术是在模型解码的过程中进行融合。随着并行化技术的发展,算法时间复杂度和空间复杂度都可以接受。超图从19世纪70年代就开始在离散数学中许多建模问题上得到了应用,也把超图称为有向超图(Gallo,1993)。它是用来抽象可以用动态规划来解决的层次化搜索空间,也就是把一个大问题变成子问题分而治之。超图是广义上的图,它的一条边可以连接到任意数量的顶点。有向超图是一个带权重集W的对H = < X,E >,X是顶点的集合;£ g Ki x K是超边的集合,E是P(X) \Φ的一个子集,其中P(X)是X的幂集,其中V*表示尾结点集合,V表示头结点集合;W是权重的集合;每一个超边e e E是一个三元组e = < T (e),h (e),f;>,其中T(e) e V*是尾结点的有序序列,由于尾结点可能为空集合,所以属于尾结点的闭包。h(e) e V是头结点,?;:Κ|τωι — R的权函数(R表示实数空间,|T(e) |表示尾结点有序序列的基数);与超边相关联的所有结点都称为超结点,每个头超节点都与多个超边相连,把h(e)称为源节点,定义|T(e)|是超边的元数;如果某个超边的元数为0,那么该超边的权函数f; e R是一个常量。`超图中所有超边的最大元数为超图的元数。元数为I的超边是正则边,元数为I的超图为正则图(格)。词图(Word Lattice)就是元数为I的超图,词图是最常见的超图。在机器翻译领域词图是表示从左到右翻译解码空间的数据结构重要工具,超图是更加泛化的词图,不仅可以表示从左到右解码空间,也可以表示从底向上解码空间。翻译超图是建立在超图的基础上,一个翻译规则对应一条超边(推导);翻译规则的权重对应超边的权函数。翻译节点是在翻译过程中生成的部分翻译,且带有各种特征值。翻译超图是为了双语机器翻译建模,不仅有源语言,也有目标语言,在翻译超图上可以进行推导,推导就是翻译的过程。
技术实现思路
本专利技术是要解决传统的在后处理上做系统融合的方法没有充分考虑解码过程的信息,和后处理上的融合不能充分考虑解码中巨大的搜索空间的问题,而提供了一种多个机器翻译系统融合的方法及装置。—种多个机器翻译系统融合的装置包括单语或双语预处理器、短语抽取器、语言模型生成器、多个机器翻译系统训练器与解码器;所述单语或双语预处理器对单语和双语进行预处理;短语抽取器从双语训练语料中抽取出短语放到短语表中;使用语言模型生成器从单语训练语料训练出语言模型;融合前的机器翻译系统使用短语表与语言模型进行训练,并把训练得到的参数权重作为最终解码器的权重;解码器是把测试语料解码生成翻译结果,并对翻译结果进行评测输出得分。多个机器翻译系统融合的方法按以下步骤实现:一、机器翻译系统的预处理过程;二、建立每个翻译系统的翻译超图;三、融合两个翻译超图并对训练集合进行训练;其中,所述训练包含两个部分:融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练MERT ;四、对测试集合进行解码生成翻译结果,并对翻译结果进行评分,即完成了一种多个机器翻译系统融合的方法。本专利技术效果:本专利技术是把多个不同的机器翻译进行融合在一起,互相提高性能,比单系统明显提高了 7个百分点的BLEU分数。模型解码的过程中进行融合的好处是不受机器翻译模型的限制,不受训练算法的限制,只要解码方式相似就可以融合,有很好的可扩展性。【附图说明】图1是多个机器翻译系统融合的装置图;图2是本专利技术流程图;图3是分词后的结果图;图4是词性标注后的结果图;图5是句法分析后的结果图;图6是含有句法、双语对齐和短语信息的句子图;图7是树到串机器翻译系统抽取的短语图;图8是含有双语对齐和短语信息的句子图;图9是短语机器翻译系统抽取的短语图;图10 Ca)基于最大熵BTG生成的翻译超图;图10 (b)基于SCFG生成的翻译超图;图10 (C)融合两种文法后生成的翻译超图;图11是机器翻译的训练过程图;图12 Ca)是得分衡量的MERT训练示例图;图12 (b)是错误衡量的MERT训练示例图;图13是CYK解码表不例图;图14是使用图13解码表生成的翻译结果图;图15是机器翻译融合主算法的伪代码图;图16是解码中核心函数Add_Edge的伪代码图。【具体实施方式】【具体实施方式】一:本实施方式的多个机器翻译系统融合的装置包括单语或双语预处理器,短语抽取器,语言模型生成器,多个机器翻译系统训练器与解码器;所述单语或双语预处理器对单语和双语进行预处理;短语抽取器从双语训练语料中抽取出短语放到短语表中;使用语言模型生成器从单语训练语料训练出语言模型;融合前的机器翻译系统使用短语表与语言模型进行训练,并把训练得到的参数权重作为最终解码器的权重;解码器是把测试语料解码生成翻译结果,并对翻译结果进行评测输出得分。【具体实施方式】二:本实施方式的多个机器翻译系统融合的方法按以下步骤实现:一、机器翻译系统的预处理过程;二、建立每个翻译系统的翻译超图;三、融合两个翻译超图并对训练集合进行训练;其中,所述训练包含两个部分:融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练(MERT);四、对测试集合进行解码生成翻译结果,并对翻译结果进行评分,即完成了一种多个机器翻译系统融合的方法。现代的机器翻译技术都是建立在双语文法的基础上,文法是一个四元组G = (VN, Vt, P,S),其中Vn是非终结符号集合,包含了源语言和目标语言的非终结符号;VT包含了源语言和目标语言的?夂结符号集合,且Vn n Vt= Φ ;整个符号集合V =Vn U Vt ;Ρ是产生式集合,Z5 G匕XFtXf时产生式集合,头结点是Vn元素,尾结点是V*X V*兀素;S是唯一的开始符号,S e VN。本实施方式采用两种经典的双语文法进行融合,由于是在解码中进行融合,所以不受文法的限制,当然也可以扩展其他类型的双语文法的融合,且训练过程也是个独立过程,可以采用经典的最小错误率训练(MERT)算法。下面对于这两种经典的机器翻译双语文法进行介绍:1.括号转录文法(BTG):通过机器学习算法实现机器翻译中的双语调序,在解码中按照源语言的语序生成翻译结果,自动的完成目标语言的调序和生成过程。例如:对于要翻译中文句子“tianshang de yuncai ”,可以匹配上BTG规则有两类:(a)词汇化规则:X—< tianshang de, in the sky > (I本文档来自技高网
...

【技术保护点】
一种多个机器翻译系统融合的装置,其特征在于多个机器翻译系统融合的装置包括单语或双语预处理器、短语抽取器、语言模型生成器、多个机器翻译系统训练器与解码器;所述单语或双语预处理器对单语和双语进行预处理;短语抽取器从双语训练语料中抽取出短语放到短语表中;使用语言模型生成器从单语语料训练出语言模型;融合前的机器翻译系统使用短语表与语言模型进行训练,并把训练得到的参数权重作为最终解码器的权重;解码器是把测试语料解码生成翻译结果,并对翻译结果进行评测输出得分。

【技术特征摘要】
1.一种多个机器翻译系统融合的装置,其特征在于多个机器翻译系统融合的装置包括单语或双语预处理器、短语抽取器、语言模型生成器、多个机器翻译系统训练器与解码器; 所述单语或双语预处理器对单语和双语进行预处理;短语抽取器从双语训练语料中抽取出短语放到短语表中;使用语言模型生成器从单语语料训练出语言模型;融合前的机器翻译系统使用短语表与语言模型进行训练,并把训练得到的参数权重作为最终解码器的权重;解码器是把测试语料解码生成翻译结果,并对翻译结果进行评测输出得分。2.应用权利要求1所述的一种多个机器翻译系统融合的装置进行多个机器翻译系统融合的方法,其特征在于一种多个机器翻译系统融合的方法按以下步骤实现: 一、机器翻译系统的预处理过程,使用单语或双语预处理器对单语和双语语料处理,语言模型生成器生成语言模型,使用短语抽取器抽取出短语; 二、为每个翻译系统生成翻译超图; 三、在多个机器翻译系统训练器中通过共享特征融合两个翻译超图并对训练集合进行训练; 其中,所述训练包含两个部分:融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练MERT ; 四、在解码器中对测试集合进行解码生成翻译结果,并对翻译结果进行评分,即完成了一种多个机器翻译系统融合的方法。3.根据权利要求2所述的一种多个机器翻译系统融合的方法,其特征在于所述步骤一中机器翻译系统的预处理过程具体为: (1)源语言和目标语言进行分词; (2)需要进行...

【专利技术属性】
技术研发人员:刘宇鹏
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1