一种融合了句型模板和统计机器翻译技术的翻译方法技术

技术编号：2828803 阅读：394 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种融合了句型模板和统计机器翻译技术的翻译方法，该方法包括：Ａ、配置句型模板，建立句型模板库；Ｂ、利用配置的句型模板对输入的源语言进行匹配，如果匹配成功，则将输入的源语言转换成包含源语言词语与目标语言词语的句子，并执行步骤Ｄ；否则，执行步骤Ｃ；Ｃ、将输入的源语言按照标点符号切分成子句，对切分的子句进行匹配，将切分的子句转换成包含源语言词语与目标语言词语的句子；Ｄ、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译，得到翻译结果。利用本发明专利技术，解决了统计机器翻译系统不能很好的翻译具有固定句型结构句子的问题，使对具有固定句型结构的句子的翻译更加流畅。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及统计机器翻译
，尤其涉及一种融合了句型模板和统计机器翻译技术的翻译方法。
技术介绍
随着世界经济的迅猛发展，各国间的文化，经济等的交往越来越频繁，人们每天的工作和生活有时不得不面对来自各个国家的各种语言的资料和信息，随之而来的一个主要问题便是语言理解问题，如何能够在较短的时间内理解使用非母语写成的资料，成为了一个急需解决的问题。因此，机器翻译软件应运而生，早期的机器翻译主要集中在规则翻译系统的研究，但翻译规则的书写需要语言专家的参与，而且通常每更换--个翻译领域就要重写一大批的规则，需要耗费大量的人力、物力、财力，在这种情形下，统计机器翻译方法在机器翻译领域迅速崛起。统计机器翻译通过利用大规模的平行双语语料对翻译系统进行训练 (统计建模)，只要拥有足够多的双语平行语料，就可以在无人干预的情形下短时间内搭建一个任何语言对象之间的机器翻译系统，而且从目前国际上主流的统计机器翻译系统的效果来看，己基本上赶上甚至超越了规则翻译系统。但是，统计机器翻译方法也仍然存在着一些缺陷。由于统计建模的过程中完全依赖于对平行语料的概率统计基础之上，而没有对句子的结构，句法等进行分析、利用，使得翻译的句子常常会出现语序、多词、少词等方面的错误。随着统计机器翻译技术近几年的快速发展，逐渐将句法分析，规则等融入到统计机器翻译系统中，一定程度上提高了系统的翻译效果。但当把统计机器翻译系统真正应用到某些领域的翻译中时，仍然还是会存在一些问题，其中一个主要的问题就是不能充分利用该领域中的大量出现的固定句型的信息，这是因为统计机器翻译在...

【技术保护点】
一种融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，该方法包括：Ａ、配置句型模板，建立句型模板库；Ｂ、利用配置的句型模板对输入的源语言进行匹配，如果匹配成功，则将输入的源语言转换成包含源语言词语与目标语言词语的句子，并执行步骤Ｄ；否则，执行步骤Ｃ；Ｃ、将输入的源语言按照标点符号切分成子句，对切分的子句进行匹配，将切分的子句转换成包含源语言词语与目标语言词语的句子；Ｄ、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译，得到翻译结果。

【技术特征摘要】
1. 一种融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，该方法包括A、配置句型模板，建立句型模板库；B、利用配置的句型模板对输入的源语言进行匹配，如果匹配成功，则将输入的源语言转换成包含源语言词语与目标语言词语的句子，并执行步骤D；否则，执行步骤C；C、将输入的源语言按照标点符号切分成子句，对切分的子句进行匹配，将切分的子句转换成包含源语言词语与目标语言词语的句子；D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译，得到翻译结果。2、根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，所述步骤A包括从大规模的语言资料库中或从日常工作遇到的包含固定句型的句子中抽象出句型模板，并将抽象出的句型模板按照一定的策略加入到系统的句型模板库中，建立句型模板库。3、根据权利要求1或2所述的融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，所述句型模板包括模板的常量和模板的变量两个部分。4、根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，配置句型模板库中句型模板的优先级，步骤B中所述利用配置的句型模板对输入的源语言进行匹配采用嵌套匹配策略进行，具体包括按句型模板优先级由高到低的顺序依次对输入的源语言进行匹配，首先利用句型模板库中优先级较高的句型模板对输入的源语言进行匹配，然后利用句型模板库中优先级较低的句型模板对输入的源语言进行匹配，直至句型模板库中没有句型模板能够匹配上输入的源语言为止。5、根据权利要求1所述的融合了句型模板和统计机器翻译技术的翻译方法，其特征在于，所述步骤C包括按照句号、逗号、分号和冒号的先后顺序依次对源语言进行切分，如果按照句号、逗号、分号...

【专利技术属性】
技术研发人员：付雷，黄瑾，何中军，吕雅娟，刘群，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人