一种多个机器翻译系统融合的方法及装置制造方法及图纸

技术编号：9794523 阅读：221 留言：0更新日期：2014-03-21 19:02

一种多个机器翻译系统融合的方法及装置，本发明专利技术涉及到机器翻译的相关领域。本发明专利技术是要解决传统的在后处理上做系统融合的方法没有充分考虑解码过程的信息和融合不能充分考虑解码中搜索空间的问题。多个机器翻译系统融合的装置包括预处理器，短语抽取器，语言模型生成器，多个机器翻译系统训练器与解码器；一、机器翻译系统的预处理；二、建立每个翻译系统的翻译超图；三、融合两个翻译超图并对训练集合进行训练；其中，所述训练包含两个部分：融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练MERT；四、对测试集合进行解码生成翻译结果，对翻译结果进行评分。本发明专利技术应用于机器翻译领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种多个机器翻译系统融合的方法及装置
本专利技术涉及多个机器翻译系统融合的方法及装置，属于机器翻译的相关领域。
技术介绍
随着计算机的快速发展，利用计算机来实现不同语种之间的翻译技术，早已为人们所熟知了。机器翻译系统融合是把多个系统的输出N-best结果进行融合，生成新翻译结果。而且已证明融合的翻译结果要好于单个系统的输出。按照融合的粒度来分包括句子级，短语级和词级，最近在基于混淆网络的词一级系统融合技术获得了大幅性能提高，但是这些方法都是在机器翻译的后处理上来进行融合。传统的在后处理上做系统融合的方法没有充分考虑解码过程的信息，而且后处理上的融合不能充分考虑解码中巨大的搜索空间。本专利技术是在模型解码的过程中进行融合。随着并行化技术的发展，算法时间复杂度和空间复杂度都可以接受。超图从19世纪70年代就开始在离散数学中许多建模问题上得到了应用，也把超图称为有向超图(Gallo，1993)。它是用来抽象可以用动态规划来解决的层次化搜索空间，也就是把一个大问题变成子问题分而治之。超图是广义上的图，它的一条边可以连接到任意数量的顶点。有向超图是一个带权重集W的对H = < X，E >，X是顶点的集合；￡ g Ki x K是超边的集合，E是P(X) \Φ的一个子集，其中P(X)是X的幂集，其中V*表示尾结点集合，V表示头结点集合;W是权重的集合；每一个超边e e E是一个三元组e = < T (e)，h (e)，f；>，其中T(e) e V*是尾结点的有序序列，由于尾结点可能为空集合，所以属于尾结点的闭包。h(e) e V是头结点，...

【技术保护点】
一种多个机器翻译系统融合的装置，其特征在于多个机器翻译系统融合的装置包括单语或双语预处理器、短语抽取器、语言模型生成器、多个机器翻译系统训练器与解码器；所述单语或双语预处理器对单语和双语进行预处理；短语抽取器从双语训练语料中抽取出短语放到短语表中；使用语言模型生成器从单语语料训练出语言模型；融合前的机器翻译系统使用短语表与语言模型进行训练，并把训练得到的参数权重作为最终解码器的权重；解码器是把测试语料解码生成翻译结果，并对翻译结果进行评测输出得分。

【技术特征摘要】
1.一种多个机器翻译系统融合的装置，其特征在于多个机器翻译系统融合的装置包括单语或双语预处理器、短语抽取器、语言模型生成器、多个机器翻译系统训练器与解码器；所述单语或双语预处理器对单语和双语进行预处理；短语抽取器从双语训练语料中抽取出短语放到短语表中；使用语言模型生成器从单语语料训练出语言模型；融合前的机器翻译系统使用短语表与语言模型进行训练，并把训练得到的参数权重作为最终解码器的权重；解码器是把测试语料解码生成翻译结果，并对翻译结果进行评测输出得分。2.应用权利要求1所述的一种多个机器翻译系统融合的装置进行多个机器翻译系统融合的方法，其特征在于一种多个机器翻译系统融合的方法按以下步骤实现: 一、机器翻译系统的预处理过程，使用单语或双语预处理器对单语和双语语料处理，语言模型生成器生成语言模型，使用短语抽取器抽取出短语；二、为每个翻译系统生成翻译超图；三、在多个机器翻译系统训练器中通过共享特征融合两个翻译超图并对训练集合进行训练; 其中，所述训练包含两个部分:融合前的单个机器翻译系统采用最大熵训练的BTG调序模型与融合后的机器翻译系统采用最小错误率训练MERT ；四、在解码器中对测试集合进行解码生成翻译结果，并对翻译结果进行评分，即完成了一种多个机器翻译系统融合的方法。3.根据权利要求2所述的一种多个机器翻译系统融合的方法，其特征在于所述步骤一中机器翻译系统的预处理过程具体为: (1)源语言和目标语言进行分词； (2)需要进行...

【专利技术属性】
技术研发人员：刘宇鹏，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人