基于实例短语的机器翻译方法技术

技术编号：3758500 阅读：292 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种基于实例短语的机器翻译方法，所述方法包括：根据从双语对齐文本中获得的词对齐信息进行短语抽取，并获得短语对齐表；根据短语对齐表，基于预定原则将源语言句子切分为若干短语；对经过切分后的短语进行基于短语的统计机器翻译。本发明专利技术提高了翻译速度和翻译质量；同时，使用一个双语词典，结合利用已有的目标语言的语言模型，对翻译结果中的未知词进行翻译，提高了翻译的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器翻译领域，具体来说是基于语料库的机器翻译，描述的是一种利用实例短语进行翻译的方法。
技术介绍
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。机器翻译系统的类型很多，包括基于实例的机器翻译(EBMT)系统和基于短语的机器翻译(PBMT)系统。 EBMT系统的基本思想是不通过深层的句子结构和语义的分析，仅仅通过已有的经验知识，通过类比原理进行翻译。这一思想的基本实现原理系统的主要知识源是双语对照的翻译实例库，每当输入一个源语言句子S时，系统找出和S最为相似的句子S'，并模仿S'的译文T'，将S和S'不匹配的地方进行翻译，替换掉T'中对应的部分，最终构成S的译文T然后输出。其特点是只要存在相似度很高甚至一样的例句，就能产生高质量的译文。EBMT方法需要一个很大的实例库作为支撑。 PBMT系统的基本思想是以短语作为翻译的基本单位。在翻译过程中，系统不是孤立地翻译每个词，而是将连续的多个词一起翻译。由于扩大了翻译的粒度，基于短语的方法很容易处理局部上下文依赖关系，能够很好地翻译习语和常用词搭配。一般地，在基于短语的方法中，短语可以是任意连续的字符串，没有语法上的限制，这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候，先输入一个双语语料库，即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语抽取，也就是抽取出语料库...

【技术保护点】
一种基于实例短语的机器翻译方法，所述方法包括：根据从双语对齐文本中获得的词对齐信息进行短语抽取，并获得短语对齐表；根据短语对齐表，基于预定原则将源语言句子切分为若干短语；对经过切分后的短语进行基于短语的统计机器翻译。

【技术特征摘要】

【专利技术属性】
技术研发人员：何亮，万磊，王进，
申请(专利权)人：三星电子中国研发中心，三星电子株式会社，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人