本发明专利技术提供一种统计机器解码方法,包括下列步骤:1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所获得的多个最优译文中选择最终译文。根据上述方法进行统计机器解码,缓解了单解码器和系统融合的局限性,并且提高了译文翻译的准确性。
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,更具体地,涉及文本翻译
技术介绍
在文本翻译领域,鉴于基于单机器翻译模型的解码器(单解码器)的表达能力的 局限性,系统融合被用来将多个单解码器的译文融合起来形成新的翻译,以此来提高翻译 的质量。近年来很多实验已经证明了系统融合在提高翻译质量方面的有效性,但是,一方 面,系统融合只对单解码器最终的译文进行操作,没有利用单解码器在解码过程中产生的 有用信息,所以导致系统融合采用的特征过于简单;另一方面,在搜索产生译文的时候,由 于每个译文可能由多个推导产生,而系统融合只用产生该译文的最大推导的分数来近似代 表该译文的分数,导致了译文的分数计算不准确。综上,现有的翻译方法存在翻译精度差的 缺陷。
技术实现思路
为解决上述技术问题,本专利技术提供一种统计机器解码特征权重的训练方法和解码 方法,以缓解单解码器和系统融合的局限性,并且提高译文翻译的准确性。为实现上述目的,根据本专利技术的一个方面,提供了一种统计机器解码方法,包括下 列步骤1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所 获得的多个最优译文中选择最终译文。在该解码方法中,所述步骤2)进一步包括将所述测试集句子的翻译超图中译文相同且对应于相同源语言端的结点压缩成 共享结点;保留所述测试集句子的翻译超图中其它结点和所有超边。在该解码方法中,所述步骤3)中所述联合解码进一步包括在所述测试集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文 的结点的路径;计算所述路径对应的译文的分数;根据所述译文的分数选择所述多个最优的译文。在该解码方法中,搜索路径的步骤采用译文级的联合的策略。在该解码方法中,搜索路径的步骤采用推导级的联合的策略。在该解码方法中,所述搜索路径的步骤进一步包括在所述测试集句子的共享压缩翻译超图上,将不同单解码器用到的规则进行重 组,由此产生新的路径;搜索到达包含所述源语言句子的译文的结点的所有路径。根据本专利技术的另一方面,还提供了一种统计机器解码特征权重的训练方法,包括 下列步骤1)对于开发集的每个源语言句子,由单解码器生成开发集句子的翻译超图;2)将所述开发集句子的翻译超图压缩为开发集句子的共享压缩翻译超图;3)在所述开发集句子的共享压缩翻译超图上,对所述每个源语言句子进行联合解 码获得多个译文,对所述多个译文进行特征权重训练;4)重复执行所述步骤3)直至收敛,生成期望的特征权重。根据本专利技术的又一方面,提供了另外一种根据上述的训练方法所生成的期望的特 征权重的统计机器解码方法,包括下列步骤1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,根据所述期望的特征权重进行联合 解码,从所述联合解码所获得的多个最优译文中选择最终译文。本专利技术将多个单解码器在解码过程中产生的信息融合到一个共享压缩翻译超图 中,通过搜索该共享压缩翻译超图中的最优路径来搜索最优的翻译结果,充分利用了每个 单解码器解码过程中的信息,从而缓解了单解码器的表达局限性,提高了翻译的精度。本发 明用最大翻译(N-best推导)计算译文的分数,即用产生每个译文的最大翻译的分数之和 作为该译文的分数,避免了只用最大推导对精度造成的损失,对分数的计算更为准确,从而 进一步保证了翻译质量。附图说明图1是根据本专利技术一个优选具体实施例的统计机器解码方法的流程图;图2a是根据本专利技术一个具体实施例的翻译超图;图2b是根据本专利技术一个具体实施例的另一个翻译超图;图2c是根据本专利技术一个具体实施例的共享压缩翻译超图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明一个实施例的统计机器解码方法进一步详细说明。应当理解,此处所描述的具体实施例 仅仅用以解释本专利技术,并不用于限定本专利技术。图1示出了根据本专利技术一个优选具体实施例的统计机器解码方法的流程图,如图 所示,该方法包括以下步骤步骤101)、对于开发集的每个源语言句子,利用单解码器生成翻译超图。具体操 作为先将源语言句子中每个短语的译文表示成结点,然后再将两个短语合并成更长的短 语,并把这两个短语对应的译文也合并,同时在翻译超图中增加对应于新的译文的结点,并 增加一条超边,该超边头结点分别是之前的两个短语对应的结点,尾结点为新产生的译文 对应的结点;该过程反复进行,直至覆盖整个源语言句子。图2(a)是根据本专利技术一个具体实施例的单解码器的翻译超图,图2(b)是另一个单解码器的翻译超图。其均对应一个共同的源语言句子=Ofabiao 1 yanjiang 2。对于上述附图,以图2(a)中的部分结点为例进行说明。图2(a)中结点〈give,[O, 1]>表示源语言端O和1之间的短语“fabaio”对应的译文,结点< “give talks”,> 表示源语言端O和2之间的短语“fabiao yanjiang”对应的译文。同理,结点〈“give a talk”,> 代表了 “fabiao yanjiang”对应的另外一个译文。结点 < give a talk,,, >是由结点〈give,>和结点< “talk”,[1,2]>对应的译文合并得到,在翻译超 图里用一条相应的超边来表示。步骤102)、对于开发集的每个源语言句子,将其由所有单解码器生成的翻译超图 压缩成共享压缩翻译超图,图2(c)示出了根据图2(a)和图2(b)所示的两个单解码器的共 享压缩翻译超图。该压缩过程如下将译文相同且对应于相同源语言端的结点压缩为一个 共享结点;保留其它结点和所有超边。在图2(c)中,实线表示图2(a)所示的单解码器的 翻译超图所包含的超边,虚线表示图2(b)所示的单解码器的翻译超图所包含的超边。两 个翻译超图都包含的结点有<give,W,1]>,表示两个模型都将“fabiao”翻译成“give”; < give a talk”, >,表示两个模型都将“fabiao yanjiang” 翻译成 “give a talk”。 图2(c)中分别将这些结点压缩成相应的共享结点。上述只是共享压缩翻译超图的一种生成方式,还可以采用其他方式生成共享压缩 翻译超图。另外一种生成方式的具体过程为对于每个源语言短语,每个单解码器先生成多 个译文,每个译文在共享压缩翻译超图中对应一个结点,满足如下条件的结点进行压缩译 文相同且对应的源语言端相同,如此反复直至覆盖整个源语言端。上述两种生成方式的区别在于前者先对每个单解码器产生所有源语言短语的译 文再进行合并,后者先对每个源语言短语产生所有单解码器的译文并立即进行合并。步骤103)、对于开发集的每个源语言句子,在其共享压缩翻译超图上进行特征权 重的训练,以生成期望的特征权重。首先,给每个特征的特征权重赋个初值,通常情况下初值都设为1,根据该初值对 开发集的每个源语言句子进行联合解码,得到每个源语言句子的前N个最优的译本文档来自技高网...
【技术保护点】
一种统计机器解码方法,包括下列步骤:1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所获得的多个最优译文中选择最终译文。
【技术特征摘要】
一种统计机器解码方法,包括下列步骤1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所获得的多个最优译文中选择最终译文。2.根据权利要求1所述的解码方法,其特征在于,所述步骤2)进一步包括 将所述测试集句子的翻译超图中译文相同且对应于相同源语言端的结点压缩成共享保留所述测试集句子的翻译超图中其它结点和所有超边。3.根据权利要求1或2所述的解码方法,其特征在于,所述步骤3)中所述联合解码进 一步包括在所述测试集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文的结 点的路径;计算所述路径对应的译文的分数;根据所述译文的分数选择所述多个最优的译文。4.根据权利要求3所述的解码方法,其特征在于,搜索路径的步骤采用译文级的联合 的策略。5.根据权利要求3所述的解码方法,其特征在于,搜索路径的步骤采用推导级的联合 的策略。6.根据权利要求...
【专利技术属性】
技术研发人员:刘洋,米海涛,冯洋,刘群,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。