基于短语的统计机器翻译方法和系统技术方案

技术编号:4319359 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于短语的统计机器翻译方法和系统。该方法包括:在预先设定的短语表中,为输入句子中的短语进行模糊匹配。在本发明专利技术中,通过对短语进行模糊匹配,能够为输入句子中较长的短语生成高质量的译文,从而相对于基于短语的精确匹配的机器翻译系统来说,能够有效地提高译文质量。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,具体地,涉及基于短语的统计机器翻译方 法和系统。
技术介绍
机器翻译技术主要分为基于规则的机器翻译、基于语料库的机器翻译。在基于语料库的机器翻译中,主要的翻译资源来源于语料库。基于语 料库的机器翻译又分为基于实例的机器翻译、基于统计的机器翻译。在 基于统计的机器翻译中,基于短语的统计机器翻译方法是目前最主要的自 动翻译方法之一。基于短语的统计机器翻译方法的基本翻译单元是短语,且所应用的翻 译知识是从语料库中的平行双语语料获得的短语表和语言模型,短语表由 平行双语语料中互为翻译的双语短语对组成。在此,短语的定义是连续的 词片段。常规的基于短语的统计机器翻译的过程主要包括首先,对于待翻译 的输入句子,使用精确匹配方法搜索短语表,找到与该输入句子对应的、 所有完全匹配的双语短语对;然后,基于这些双语短语对以及语言模型,釆用统计思想选出该输入句子的目标语言译文片段的组合中得分最高的那 一个,作为输入句子的正确目标语言译文。图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图l所示,该系统10主要包括输入单元11、查找单元12、译 文生成单元13、输出单元14、短语表存储单元15以及语言模型存储单元16等。其中,输入单元11是该系统10与外部的接口,该系统10通过输入 单元11从外部获得待翻译的输入句子。查找单元12进行短语的精确匹配。具体地,其对通过输入单元11获 得的待翻译的输入句子,使用精确匹配算法在短语表存储单元15所存储的 短语表中查找与该输入句子对应的、完全匹配的双语短语对。并且,译文生成单元13生成输入句子的正确目标语言译文。具体地, 其基于查找单元12所查找的双语短语对以及语言才莫型存储单元16中所存 储的语言模型,利用统计模型选出该输入句子的、可能的目标语言译文中 得分最高的那一个,作为该输入句子的正确目标语言译文。由译文生成单元13生成的该目标语言译文通过输出单元14输出。 图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中, 对于输入句子"我觉得她那故事的结尾很激动人心",图l的系统利用短 语的精确匹配技术,在短语表中找到与该输入句子对应的、四个完全匹配 的双语短语对(Pl)我觉得oI found; (P2)她oher; (P3)那故事的结尾 <-〉the end of the story; (P4)4艮激动人心〈画〉very exciting。并且,才艮据这四 个双语短语对,系统使用统计模型得到最终的译文"I found her the end of the story very exciting"。从上面可以看出,在常规的基于短语的统计机器翻译系统中,对于待 翻译的输入句子,使用精确匹配方法在短语表中搜索完全匹配的双语短语 对来得到输入句子的译文。精确匹配方法要求两个待匹配的短语必须完全 一致。但是,通常情况下,预先建立的语料库中的平行双语语料都是非常 有限的,可能不会覆盖较长的短语。这样,对于待翻译的输入句子中较长 的短语,精确匹配方法很难在短语表中找到完全匹配的双语短语对。这样,在翻译过程中,只能将较长的短语切分成几个较短的短语来--进行匹配。但是,由于较长的短语相对于较短的短语来说包含有更多的上下文信息, i T入句子利用较短的短il利用较长的短语的匹配所得到的目标语言译文。6
技术实现思路
本专利技术正是鉴于上述现有技术中的问题而提出的,其目的在于提供一 种基于短语的统计机器翻译方法和系统,以便能够通过短语的模糊匹配, 为输入句子中较长的短语生成高质量的译文,从而基于较长的短语来进行 输入句子的翻译,来有效地提高机器翻译系统的译文质量。根据本专利技术的一个方面,提供一种基于短语的统计机器翻译方法,包括在预先设定的短语表中,为输入句子中的短语进行模糊匹配。根据本专利技术的另 一个方面,提供一种基于短语的统计机器翻译系统, 包括短语模糊匹配单元,用于在预先设定的短语表中,为输入句子中的 短语进行模糊匹配。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更 好地了解本专利技术上述的特点、优点和目的。图l是常规的基于短语的统计机器翻译系统的方框图; 图2示出了采用图l的系统的机器翻译示例; 图3是根据本专利技术实施例的基于短语的统计机器翻译方法的流程图; 图4是根据本专利技术一个实施例的、图3的方法中短语的模糊匹配过程 的详细流程图;图5示出了采用图3、 4的方法的机器翻译示例;图6是根据本专利技术实施例的基于短语的统计机器翻译系统的方框图;以及图7是根据本专利技术一个实施例的、图6的系统中短语模糊匹配单元的方框图。具体实施方式下面就结合附图对本专利技术的各个优选实施例进行详细说明。图3是根据本专利技术实施例的基于短语的统计机器翻译方法的流程图。 如图3所示,首先在步骤305,获得待翻译的输入句子。 在步骤310,进行短语的模糊匹配。具体地,在该步骤中,对于上述输入句子,使用短语的模糊匹配方法 在预先设定的短语表中为该输入句子中的各短语查找相同的或最相似的双 语短语对,进而修改最相似的双语短语对,从而得到各短语的正确译文。在步骤315,生成输入句子的目标语言译文。具体地,基于在步骤310获得的双语短语对以及预先设定的语言模型, 利用统计模型选出上述输入句子的、可能的目标语言译文中得分最高的那 一个,作为该输入句子的正确目标语言译文。在步骤320,输出所生成的上述目标语言译文。下面详细描述上面的步骤310的过程。图4是才艮据本专利技术一个实施例 的、该步骤310的短语的模糊匹配过程的详细流程图。图5是采用图3、 4 的方法进行的机器翻译示例。在本实施例中,短语的模糊匹配的过程是根据基于实例的机器翻译 (Example-Based Machine Translation, EBMT)思想来实现的。基于实 例的机器翻译方法的主要过程是首先,搜索例句库,查找与输入句子相 似的例句;然后,识别出相似例句与输入句子之间的不同之处;最后,根 据翻译模型消除相似例句中的不同,从而生成输入句子的译文。关于基于实例的机器翻译方法的详细信息,可以参考Harold Somers在1999年发表 的 "Review Article: Example-based Machine Translation" , Machine Translation, 14(2): 113-157。如图4所示,本实施例的短语的模糊匹配过程首先在步骤405,为上 述输入句子中的各短语,从预先设定的短语表中查找相同的或最相似的双 语短语对。例如,参照图5,假设输入句子仍是"我觉得她那故事的结尾很激动 人心",则在为该输入句子中的各短语从短语表中查找相同的或最相似的 双语短语对的过程中,对于短语"我觉得",找到了完全匹配的双语短语那故事的结尾",找到了最相 似的双语短语对"(S3)那故事的结尾othe end of the story";对于短语"很 激动人心",找到了完全匹配的双语短语对"(P4)很激动人心overy exciting"。其中,对于上述"她那故事的结尾,,这样在短语表中没有完全匹配的 双语短语对的较长的短语,查找其最相似的双语短语对的过程是首先, 从短语表中找出包含与该短语中相同本文档来自技高网
...

【技术保护点】
一种基于短语的统计机器翻译方法,包括:  在预先设定的短语表中,为输入句子中的短语进行模糊匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘占一王海峰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1