基于扩展的层次化短语模型的统计机器翻译装置和方法制造方法及图纸

技术编号:7272109 阅读:240 留言:0更新日期:2012-04-15 19:32
本发明专利技术公开了一种基于扩展的层次化短语模型的统计机器翻译装置和方法,其中该统计机器翻译装置包括:翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本发明专利技术的技术方案,可以有效地提高翻译的准确度。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,更具体地涉及一种。
技术介绍
基于层次化短语的模型(下面也称为HPB模型)构建于加权的同步上下文无关语法(CFG)之上,其为统计机器翻译提供了一种强大的机制来捕获短、长距离的短语次序调整。其中,它利用两种规则1)翻译规则,其是从词对齐的双语语料库中学习而来的。翻译规则可以是由词构成的短语规则,或者由词和变量两者构成的层次化规则。在解码期间,短语规则执行词法翻译,而层次化规则既执行词法翻译,又执行短语次序调整;2)粘合规则, 其被定义为顺序地结合相邻的短语。然而,HPB模型的一个缺点是粘合规则仅仅提供短语的顺序结合。具体地说,对于两种语言之间的翻译,经常会遇到短语需要逆序结合的情况。而在HPB模型中,只能通过具体的层次化规则进行短语次序调整。因此,利用现有的HPB模型进行机器翻译时,如果需要逆序结合的短语找不到相应的层次化规则来进行短语次序调整,则只能根据HPB模型中的粘合规则来顺序地结合短语,这样就会造成翻译错误。有关HPB模型的更多细节可以例如参见David Chiang所著的“A hierarchical phrase-based model for statistical machine translation",Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,pages 263—270, 2005。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分,也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念,以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形,本专利技术的目的是提供一种基于扩展的层次化短语模型 (HPB模型)的统计机器翻译装置和方法,其可以解决现有技术问题中的一个或多个。为了实现上述目的,根据本专利技术的一个方面,提供了一种基于扩展的HPB模型的统计机器翻译装置,包括翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本专利技术的另一个方面,还提供了一种基于扩展的HPB模型的统计机器翻译方3法,包括从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;规定包括顺序规则和逆序规则的粘合规则;以及利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本专利技术的另一个方面,还提供了用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序产品。根据本专利技术的另一个方面,还提供了计算机可读介质,其上记录有用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序代码。根据本专利技术的上述技术方案,通过规定包括顺序规则和逆序规则的粘合规则,在解码期间以顺序和逆序两种方式进行相邻短语的结合,从而可以有效地提高翻译的准确度。附图说明本专利技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1示出了根据本专利技术实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;图2示出了用于说明在解码过程中相邻短语之间的结合方式的示意图;图3示出了根据本专利技术另一实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;图4示出了根据本专利技术实施例的基于扩展的HPB模型的统计机器翻译方法的总体流程图;以及图5示出了其中实现本专利技术的计算机的示例性结构框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本专利技术实施例的理解。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其它细节。首先将参考附图详细描述根据本专利技术实施例的基于扩展的HPB模型的统计机器翻译装置。图1示出了根据本专利技术实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图。如图1所示,根据本专利技术实施例的基于扩展的HPB模型的统计机器翻译装置100包括翻译规则提取单元110、粘合规则规定单元120、以及解码单元130。其中,翻译规则提取单元110可以用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则。有关该提取处理的更多细节可以例如参见David Chiang所胃白勺 “A hierarchical phrase-based model for statistical machine translation", Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pages 263-270,2005,这里不再赘述。粘合规则规定单元120可以用于规定包括顺序规则和逆序规则的粘合规则。具体地说,在现有的HPB模型中存在如下两条粘合规则权利要求1.一种基于扩展的层次化短语模型的统计机器翻译装置,包括翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。2.如权利要求1所本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:何中军孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术