基于实例短语的机器翻译方法技术

技术编号:3758500 阅读:281 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于实例短语的机器翻译方法,所述方法包括:根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。本发明专利技术提高了翻译速度和翻译质量;同时,使用一个双语词典,结合利用已有的目标语言的语言模型,对翻译结果中的未知词进行翻译,提高了翻译的质量。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,具体来说是基于语料库的机器翻译,描述的是一种利用实例短语进行翻译的方法。
技术介绍
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。机器翻译系统的类型很多,包括基于实例的机器翻译(EBMT)系统和基于短语的机器翻译(PBMT)系统。 EBMT系统的基本思想是不通过深层的句子结构和语义的分析,仅仅通过已有的经验知识,通过类比原理进行翻译。这一思想的基本实现原理系统的主要知识源是双语对照的翻译实例库,每当输入一个源语言句子S时,系统找出和S最为相似的句子S',并模仿S'的译文T',将S和S'不匹配的地方进行翻译,替换掉T'中对应的部分,最终构成S的译文T然后输出。其特点是只要存在相似度很高甚至一样的例句,就能产生高质量的译文。EBMT方法需要一个很大的实例库作为支撑。 PBMT系统的基本思想是以短语作为翻译的基本单位。在翻译过程中,系统不是孤立地翻译每个词,而是将连续的多个词一起翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。 一般地,在基于短语的方法中,短语可以是任意连续的字符串,没有语法上的限制,这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语抽取,也就是抽取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。 然而,EBMT的缺陷在于如果相似度阈值过高,则匹配成功率低;反之,如果相似度阈值过低,则模糊匹配时产生译文质量较差。要在保证译文质量的前提下提高匹配的成功率,只有建立大规模的实例库,但这需要大量的时间、人力和物力。PBMT的缺陷在于在对句子进行翻译时,需要考虑所有可能的短语(只要是连续的词串就可以被认作是短语),及这些短语的组合情况,这大大的降低了翻译的速度;同时,对于较长的句子或短语,翻译时需要处理大量的歧义,导致翻译的效果不佳。另外,纯粹的EBMT方法和PBMT方法没有考虑对语料库中没有出现的未知词的处理,尤其是大量的专业词汇。 一个处理方法是扩充实例库或者双语对齐语料库,扩大其词汇量的覆盖范围,但一方面实例库和双语对齐语料库的建设需要大量的时间、人力和物力;另一方面,每当有新词汇出现时,扩充语料库之后都需要重新对系统进行训练。
技术实现思路
根据本专利技术的一方面,将基于短语的机器翻译方法和基于实例的思想相结合,在3对现有的PBMT系统不作修改的前提下,引入基于实例的方法,充分利用已有的短语对齐数据,快速、高质量地对匹配的句子进行翻译的优点,从而达到翻译速度和翻译质量的同步提高;同时,使用一个双语词典,结合利用已有的目标语言的语言模型,对翻译结果中的未知词进行翻译,双语词典的构造难度大大低于双语句对的构造难度,同时只需对词典进行扩充即可翻译新词汇,而现有系统无需重新训练。 根据本专利技术的一方面,提供了一种,所述方法包括根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。 根据本专利技术的一方面,所述方法还可包括利用双语词典和目标语言的语言模型对未知词进行翻译。 根据本专利技术的一方面,对源语言句子进行切分的步骤所基于的原则是使得切分后的短语覆盖率最高,其中,覆盖率是指源语言句子中短语被覆盖的总字数除以源语言句子的总字数,覆盖是指切分出的短语存在于短语对齐表中。 根据本专利技术的一方面,在对源语言句子进行切分的步骤中使得切分后的短语覆盖率最高的前提下,使源语言句子的短语数最少。 根据本专利技术的一方面,在使切分后的短语覆盖率最高并使源语言句子的短语数最少的前提下,使切分出的短语最长。 根据本专利技术的一方面,可根据图论中的求两定点之间的最短路径来将源语言句子切分为若干短语。 根据本专利技术的一方面,通过根据图论中的求两定点之间的最短路径来切分源语言句子的步骤可包括定义源语言句子中每两个字之间为一个顶点,在句子的第一个字之前以及句子的最后一个字之后各设置一个顶点;连接图中两个顶点的边的权重被设置为相同的值;利用A*算法或者Di jkstra算法求解首尾两个顶点之间最短路径。 根据本专利技术的一方面,对未知词进行翻译的步骤可包括从双语词典中检索源语言句子中的每个未知词的可能翻译;在对经过切分后的短语进行基于短语的统计机器翻译之后获得的结果中,用未知词的每个可能翻译替换未知词;利用目标语言的语言模型来计算替换后的句子的概率值;选择概率值最高的替换作为最终的翻译结果。附图说明 下面结合附图和具体实施方式对本专利技术作进一步详细说明。 图1是根据本专利技术实施例的的流程图; 图2是根据现有技术的构造短语对齐表的示意图; 图3是根据本专利技术实施例的短语切分方法的实例; 图4是根据现有技术的基于短语的统计机器翻译的实例; 图5是根据本专利技术实施例的对未知词进行翻译的流程图。具体实施例方式本专利技术所述系统和方法,由以下几个核心部分组成构造短语对齐表、实例短语切4分、基于短语的翻译和未知词的翻译。 图1示出了根据本专利技术实施例的的流程图,具体包 含如下步骤 在步骤S100,构造短语对齐表。在构造短语对齐表的过程中,利用GIZA++从双语 对齐文本中获得词对齐信息,然后根据词对齐信息进行短语抽取,获得短语对齐表。其中短 语对齐表由以下三个部分组成源语言短语、目标语言短语和概率值。图2是构造短语对齐 表的一个实例,用来说明构造短语对齐表模块的输入输出形式,其中概率值会有多个,它们 被用来综合衡量短语对齐的概率。 在步骤S200,进行实例短语切分。实例短语切分的输入是一个源语言句子,该句子 可以预先经过分词,即对文本进行词语的切分,像英文那样使得句子中的词之间有空格以 标识,举例来说,将句子"机器翻译系统和方法"分成如"机器翻译系统和方法"这样用空格 将词语分隔开的形式,这样做的一个好处是,分词之后,可以以词为单位代替以字为单位进 行后续的短语切分,从而明显提高翻译的效率。另外,作为实例短语切分的输入的源语言句 子也可以没有进行任何预处理,以一个连续的字串形式输入。 在步骤S200中,根据短语对齐表,将源语言句子切分为若干源语言短语,每一个 短语之间用空格隔开,切分要遵循以下原则 首先,切分后的句子短语被覆盖率最高(覆盖率=句子中短语被覆盖的总字数/ 句子总字数),其中,如果切分出的短语存在于短语对齐表中,则称该短语被覆盖。其次, 在上述前提下,对句子的切分数最少,即切分后,句子中被空格隔开的短语数最少,如句子 "机器翻译系统和方法"被切分后变成"机器翻译系统和方法",因为句子中有两个空格,这 两个空格即是因为切分生成的,那么,我们说其切分数为2。再次,在上面所述的两个前提 下,考虑切分出的短语最长的情况,即在多种切分方式中考虑其中的某个短语最长的一种 方式,因为短语越长,其在原对齐文本中出现的次数就越少,出现的情况复杂程度越小,本文档来自技高网
...

【技术保护点】
一种基于实例短语的机器翻译方法,所述方法包括:根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。

【技术特征摘要】

【专利技术属性】
技术研发人员:何亮万磊王进
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1