基于短语的统计机器翻译方法和系统技术方案

技术编号：4319359 阅读：236 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种基于短语的统计机器翻译方法和系统。该方法包括：在预先设定的短语表中，为输入句子中的短语进行模糊匹配。在本发明专利技术中，通过对短语进行模糊匹配，能够为输入句子中较长的短语生成高质量的译文，从而相对于基于短语的精确匹配的机器翻译系统来说，能够有效地提高译文质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理技术，具体地，涉及基于短语的统计机器翻译方法和系统。
技术介绍
机器翻译技术主要分为基于规则的机器翻译、基于语料库的机器翻译。在基于语料库的机器翻译中，主要的翻译资源来源于语料库。基于语料库的机器翻译又分为基于实例的机器翻译、基于统计的机器翻译。在基于统计的机器翻译中，基于短语的统计机器翻译方法是目前最主要的自动翻译方法之一。基于短语的统计机器翻译方法的基本翻译单元是短语，且所应用的翻译知识是从语料库中的平行双语语料获得的短语表和语言模型，短语表由平行双语语料中互为翻译的双语短语对组成。在此，短语的定义是连续的词片段。常规的基于短语的统计机器翻译的过程主要包括首先，对于待翻译的输入句子，使用精确匹配方法搜索短语表，找到与该输入句子对应的、所有完全匹配的双语短语对；然后，基于这些双语短语对以及语言模型，釆用统计思想选出该输入句子的目标语言译文片段的组合中得分最高的那一个，作为输入句子的正确目标语言译文。图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图l所示，该系统10主要包括输入单元11、查找单元12、译文生成单元13、输出单元14、短语表存储单元15以及语言模型存储单元16等。其中，输入单元11是该系统10与外部的接口，该系统10通过输入单元11从外部获得待翻译的输入句子。查找单元12进行短语的精确匹配。具体地，其对通过输入单元11获得的待翻译的输入句子，使用精确匹配算法在短语表存储单元15所存储的短语表中查找与该输入句子对应的、完全匹配的双语短语对。并且，译文生成单元13生成输入句...

【技术保护点】
一种基于短语的统计机器翻译方法，包括：　　在预先设定的短语表中，为输入句子中的短语进行模糊匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘占一，王海峰，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人