一种融合了句型模板和统计机器翻译技术的翻译方法技术

技术编号:2828803 阅读:394 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种融合了句型模板和统计机器翻译技术的翻译方法,该方法包括:A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。利用本发明专利技术,解决了统计机器翻译系统不能很好的翻译具有固定句型结构句子的问题,使对具有固定句型结构的句子的翻译更加流畅。

【技术实现步骤摘要】

本专利技术涉及统计机器翻译
,尤其涉及一种融合了句型模板和 统计机器翻译技术的翻译方法。
技术介绍
随着世界经济的迅猛发展,各国间的文化,经济等的交往越来越频繁, 人们每天的工作和生活有时不得不面对来自各个国家的各种语言的资料 和信息,随之而来的一个主要问题便是语言理解问题,如何能够在较短的 时间内理解使用非母语写成的资料,成为了一个急需解决的问题。因此,机器翻译软件应运而生,早期的机器翻译主要集中在规则翻译 系统的研究,但翻译规则的书写需要语言专家的参与,而且通常每更换--个翻译领域就要重写一大批的规则,需要耗费大量的人力、物力、财力, 在这种情形下,统计机器翻译方法在机器翻译领域迅速崛起。统计机器翻译通过利用大规模的平行双语语料对翻译系统进行训练 (统计建模),只要拥有足够多的双语平行语料,就可以在无人干预的情 形下短时间内搭建一个任何语言对象之间的机器翻译系统,而且从目前国 际上主流的统计机器翻译系统的效果来看,己基本上赶上甚至超越了规则 翻译系统。但是,统计机器翻译方法也仍然存在着一些缺陷。由于统计建模的过 程中完全依赖于对平行语料的概率统计基础之上,而没有对句子的结构, 句法等进行分析、利用,使得翻译的句子常常会出现语序、多词、少词等 方面的错误。随着统计机器翻译技术近几年的快速发展,逐渐将句法分析,规则等 融入到统计机器翻译系统中, 一定程度上提高了系统的翻译效果。但当把 统计机器翻译系统真正应用到某些领域的翻译中时,仍然还是会存在一些 问题,其中一个主要的问题就是不能充分利用该领域中的大量出现的固定 句型的信息,这是因为统计机器翻译在翻译过程中完全是依赖于句子翻译 概率的计算,而很少去考虑句子的结构信息。因此,对这种固定句型的句 子仍然单纯的采用统计方法进行翻译,翻译结果往往都不能尽如人意。
技术实现思路
(一) 要解决的技术问题有鉴于此,本专利技术的主要目的在于提供一种融合了句型模板和统计机 器翻译技术的翻译方法,以解决统计机器翻译系统不能很好的翻译具有固 定句型结构的句子的问题,从而使对具有固定句型结构的句子的翻译更加 流畅,符合领域常用句型的翻译结构。(二) 技术方案为达到上述目的,本专利技术的技术方案是这样实现的,该方法包括 A、 配置句型模板,建立句型模板库;B、 利用配置的句型模板对输入的源语言进行匹配,如果匹配成功, 则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行 步骤D;否则,执行步骤C;C、 将输入的源语言按照标点符号切分成子句,对切分的子句进行匹 配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、 将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。所述步骤A包括从大规模的语言资料库中或从日常工作遇到的包含 固定句型的句子中抽象出句型模板,并将抽象出的句型模板按照一定的策 略加入到系统的句型模板库中,建立句型模板库。所述句型模板包括模板的常量和模板的变量两个部分。配置句型模板库中句型模板的优先级,步骤B中所述利用配置的句型模板对输入的源语言进行匹配采用嵌套匹配策略进行,具体包括按句型模板优先级由高到低的顺序依次对输入的源语言进行匹配,首先利用句型模板库中优先级较高的句型模板对输入的源语言进行匹配,然后利用句型模板库中优先级较低的句型模板对输入的源语言进行匹配,直至句型模板 库中没有句型模板能够匹配上输入的源语言为止。所述步骤C包括按照句号、逗号、分号和冒号的先后顺序依次对源语言进行切分,如果按照句号、逗号、分号和冒号中任何一种切分方式能够将源语言切分成与句型模板相匹配的子句,则结束切分,对切分得到的子句进行匹配,并将切分得到的子句转换成包含源语言词语与目标语言词语的句子。所述匹配包括整句匹配和部分匹配两种匹配方式,在采用整句匹配方 式时,源语言的句首与句型模板的句首相对应,源语言的句尾与句型模板 的句尾相对应;在采用部分匹配方式时,源语言中的部分词语与句型模板 中的部分词语相对应。所述步骤D包括将匹配得到的包含源语言词语与目标语言词语的句 子输出给统计机器翻译系统,统计机器翻译系统将源语言切分成不同的短 语,并到短语表中查找与所述短语相匹配的目标短语,顺序连接目标短语 构成不同的译文,计算译文的分数,选择分数最高的译文作为最终的译文。所述统计机器翻译系统为基于短语的单调解码的翻译系统;所述短语表包括多条记录,每条记录包括源语言短语、目标语言短语以及源语言短语与目标语言短语之间的翻译概率三个部分;在计算译文的分数时,所述译文分数等于翻译概率与语言模型概率的 乘积。所述源语言短语与目标语言短语中的短语为连续的单词串。 所述语言模型概率用于计算翻译的目标语言的流畅程度,采用概率统计方法揭示语言单位内在的统计规律;所述概率统计方法为基于N元组统计的方法。(三)有益效果从上述技术方案可以看出,本专利技术具有以下有益效果1、本专利技术提供的这种融合了句型模板和统计机器翻译技术的翻译方法,釆用句型模板的定义方法、句型模板的匹配算法及其句型模板方法与 统计机器翻译的融合策略,很好地解决了统计机器翻译系统不能很好的翻 译具有固定句型结构的句子的问题,使对具有固定句型结构的句子的翻译 更加流畅,符合领域常用句型的翻译结构。2、本专利技术提供的这种融合了句型模板和统计机器翻译技术的翻译方 法,结合了基于模板的技术和统计机器翻译的技术,仅仅只需要用户定义 一定量的常用固定句型的模板,就能够翻译出符合特定领域句型结构的标 准化的目标译文,同时又具有成本低,耗时短,不存在版权纠纷等优点。附图说明图1为本专利技术提供的融合了句型模板和统计机器翻译技术的翻译方法总体技术方案的实现流程图2为依照本专利技术实施例提供的融合了句型模板和统计机器翻译技术 的翻译方法流程图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本专利技术进一步详细说明。如图1所示,图1为本专利技术提供的融合了句型模板和统计机器翻译技术的翻译方法总体技术方案的实现流程图,该方法包括以下步骤 步骤101:配置句型模板,建立句型模板库;步骤102:利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子, 并执行步骤104;否则,执行步骤103;步骤103:将输入的源语言按照标点符号切分成子句,对切分的子句 进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;步骤104:将匹配得到的包含源语言词语与目标语言词语的句子输出 给统计机器翻译系统进行翻译,得到翻译结果。上述步骤101包括从大规模的语言资料库中或从日常工作遇到的包 含固定句型的句子中抽象出句型模板,并将抽象出的句型模板按照一定的 策略加入到系统的句型模板库中,建立句型模板库。所述句型模板包括模 板的常量和模板的变量两个部分。上述在从大规模的语言资料库中或从日常工作遇到的包含固定句型 的句子中抽象出句型模板时,由用户针对某些领域的特殊翻译需求,按照 句型模板的定义方法进行。由于某个特定领域的特定句型不会太多,所以 句型模板库不会像规则库那样庞大,而且句型模板库的构建不需要语言学 家的参与,普通的用户完全可以胜任,并且可本文档来自技高网
...

【技术保护点】
一种融合了句型模板和统计机器翻译技术的翻译方法,其特征在于,该方法包括:A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子, 并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进 行翻译,得到翻译结果。

【技术特征摘要】
1. 一种融合了句型模板和统计机器翻译技术的翻译方法,其特征在于,该方法包括A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。2、 根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻 译方法,其特征在于,所述步骤A包括从大规模的语言资料库中或从日常工作遇到的包含固定句型的句子 中抽象出句型模板,并将抽象出的句型模板按照一定的策略加入到系统的 句型模板库中,建立句型模板库。3、 根据权利要求1或2所述的融合了句型模板和统计机器翻译技术的翻译方法,其特征在于,所述句型模板包括模板的常量和模板的变量两 个部分。4、 根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻 译方法,其特征在于,配置句型模板库中句型模板的优先级,步骤B中所述利用配置的句型模板对输入的源语言进行匹配采用嵌套匹配策略进行, 具体包括按句型模板优先级由高到低的顺序依次对输入的源语言进行匹配,首 先利用句型模板库中优先级较高的句型模板对输入的源语言进行匹配,然 后利用句型模板库中优先级较低的句型模板对输入的源语言进行匹配,直 至句型模板库中没有句型模板能够匹配上输入的源语言为止。5、 根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻 译方法,其特征在于,所述步骤C包括按照句号、逗号、分号和冒号的先后顺序依次对源语言进行切分,如 果按照句号、逗号、分号...

【专利技术属性】
技术研发人员:付雷黄瑾何中军吕雅娟刘群
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利