一种计算机语言翻译方法及其翻译系统技术方案

技术编号:2860273 阅读:807 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种计算机语言翻译方法和翻译系统,翻译方法包括,首先,将输入的被翻译句子分解成多个单词的组合,然后,在句子数据库中查找所有包含待翻译单词的句子,再按匹配算法查找出匹配率为最高值的句子,最后,输出该句子对应的译文;翻译系统包括:获得被翻译的句子及输出翻译结果的输入输出模块、翻译模块、存储句子原文和对应译文及索引的数据库模块和数据库管理模块;翻译模块将句子分解独立的WORD,向数据库管理模块查询,采用设定的算法计算匹配率,得到翻译结果。本发明专利技术在传统单词或短语加语法的翻译方式基础上综合句子匹配方式,通过匹配率计算实现了句子匹配,提高了翻译效率,达到了译文的准确和统一,节省翻译人员的时间和精力。

【技术实现步骤摘要】

本专利技术涉及一种语言翻译方法及其系统,特别是指一种以计算机作为主要工具的语言翻译方法及应用该方法完成语言翻译的系统;属于计算机翻译
技术介绍
语言翻译是一门具有技巧性和艺术性的科学,需要付出创造性的劳动。由于各种语言都是由繁多的辞语、复杂的语法关系和几乎没有规律可循的习惯用法构成的语言系统,因此,语言翻译工作十分复杂、繁琐和枯燥;并且,人工翻译很难将以前翻译的知识和技巧积累下来,供后续的翻译工作使用。有鉴于上述的现实,人们提出了利用机器进行语言翻译的设想。随着计算机技术的飞速发展和计算机的日益普及,这一设想也得到了初步的实现越来越多的计算机语言翻译系统不断问世。这些语言翻译系统大多侧重于自动翻译,使用者只能利用这样的语言翻译系统从外语文字资料中了解资料的的原文大意。由于目前人工智能理论和数据处理算法的局限,完全采用计算机进行语言翻译,通常只能得到一些机械的翻译结果,其原因是一般的语言翻译系统中,计算机只是按照事先规定的翻译规则进行机械的翻译处理,而不会考虑用词的准确性;更不能照顾到被翻译对象的前后语言环境而使得翻译结果达到译文的“信、达、雅”;并且,这类翻译系统通常不具备词语库更新的功能,所以,仅能在专业翻译中用做参考工具。另外,还有一些语言翻译系统、语言翻译平台,它能辅助其使用者进行一些语言翻译工作,能够记住使用者曾经翻译过的句子,存入记忆库中,在翻译一句话时,会以数学方法在记忆库中查找要翻译的句中的单词或词组在记忆库的句子中出现的比率,达到一定的比率后则将记忆库中相应的句子的译文提出,供翻译人员对该句进行校对或修改,这种方法虽具有一定的句子匹配功能,但会出现从记忆库中提出的句子与需要翻译的句子虽然有一定的词或词组相同,但顺序或含义不同,译义完全不同的问题。因此,这些翻译系统的主要缺点在于语言水平低,整句进行翻译往往很不准确,词不达意;有语法库和简单的记忆库而没有知识库,翻译不够准确,专业性不强。由于完全用计算机完成语言翻译这样具有创造性思维的工作还不现实,但随着计算机速度和能力的不断提高,如果能有一种基于句子匹配的翻译方法与如今的词典及基于语法的翻译方法相结合使用,一定可以取得更加准确和专业的翻译结果,大大提高人们对于各种语言的驾驭能力,取得良好的社会效益和经济效益。
技术实现思路
本专利技术所要解决的技术问题在于提供一种句子匹配的模式进行语言翻译的翻译方法。本专利技术所要解决的另一个技术问题在于提供一种利用句子匹配模式进行语言翻译的翻译系统。本专利技术的翻译方法,包括如下步骤步骤一、将输入的被翻译的句子分解成多个单词,即WORD(以下简称为WORD)的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。本专利技术的计算机翻译系统,包括输入输出模块、翻译模块、数据库模块和数据库管理模块;所述的输入输出模块与翻译模块相连,用来获得被翻译的句子,获得对翻译模块和数据库模块的设置参数,并将翻译好的句子和/或提示信息输出;所述的翻译模块用来将被翻译的句子分解成各个独立的WORD;与数据库管理模块交互发出查询请求,得到查询结果;采用设定的算法计算匹配率,将符合要求的翻译结果输出;所述的数据库模块用来存储WORD和句子的原文和对应的译文,以及数据库的索引;所述的数据库管理模块从翻译模块获得查询请求和被查询信息,根据数据库的索引,完成请求的查询;并将结果返回给翻译模块。本专利技术提出了一种新的句子匹配翻译方法,它通过搜索句子数据库,对需要翻译的内容进行分析、对比,给出满足要求的参考句子和翻译结果。本专利技术的系统不仅实现了句子匹配,而且通过与单词翻译模块和自动翻译模块相集成,还可以使翻译人员的使用更加方便。附图说明图1为本专利技术的总体流程示意图;图2为本专利技术有序匹配实施例的流程图;图3为本专利技术无序匹配实施例的流程图;图4为本专利技术翻译系统基本结构示意图。具体实施例方式本专利技术所述的翻译方法是一种基于句子匹配原理进行翻译的方法,句子由人工翻译好,存储在计算机中,并且如果对于不同的领域,句子由本领域的专业人员进行翻译,这样在翻译时就已经对专业词库进行了考虑。这样经过句子匹配得到的翻译结果,不必考虑千变万化的语法结构,大量的例外情况和习惯用法,比单词或短语结合语法翻译方法更为准确,使得计算机翻译的结果也可以非常具有专业性。实施例1如图1所示是本专利技术完成语句翻译过程的流程图,翻译过程包括步骤一、将输入的被翻译的句子分解成多个单词WORD的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。采用句子匹配的方法进行翻译,最大的难点在于句子是无法穷尽的,有无数种可能句子,建立包括所有句子的句子数据库是不可能的,因此,使每一个被翻译句子的所有单词WORD完全与句子数据库中的某一个句子一一对应的完全相同是同样不可能的。本专利技术创造性的采用了匹配算法来计算被翻译句子与数据库中句子的相似度(匹配率),解决了这一难题。文本相似度的算法在很多领域中都有应用,比如网络安全中的信息过滤机制就是以文本相似度的算法为基础建立的。为了获得更好的翻译效果,句子数据库包括常用基本句子和某一专业领域大部分的句子,并且句子数据库可以不断的进行更新,以使数据库本身更加适用与该领域。数据库的更新过程,其实是一种学习过程当使用者完成某一句的翻译后,可以将翻译好的句子添加到数据库中,不断的完善数据库。本专利技术所述的步骤一中,将输入的被翻译的句子分解成多个单词,即WORD的组合,根据计算机对WORD的编码方式,将输入的句子分解成WORD的组合,按在被翻译句子中的顺序将WORD放入到翻译数组中。所述的单词WORD为该语言中有确定含义的符号的最小单位,如中文中的汉字,英文中的单词。从输入的被翻译的语句中分解单词的方法根据语言的不同而不同,比如,对于英文可以通过查找空格的方法,每两个空格之间为一个单词;对于中文,计算机编码就是以汉字作为单位进行的,只要可以了解是哪一种编码方式就能够很容易完成分解。本专利技术所述的步骤二,在句子数据库中查找所有包括某一WORD的句子,查找的方法根据数据库的不同而有所不同,由于句子数据库非常庞大,为了能够在其中快速的找到对应的句子,可以采用单词索引的方式实现单词句子归属的快速查询。句子数据库至少包括句子内容表;其表项为每一个句子和该句子对应的译文,这是基本的要求;句子数据库还应包括句子位置索引表;其表项为句子内容表中每一个句子的句编号、该句子在句子内容本文档来自技高网
...

【技术保护点】
一种计算机语言翻译方法,其特征在于,它包括如下步骤:步骤一、将输入的被翻译的句子分解成多个单词,即WORD的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。

【技术特征摘要】

【专利技术属性】
技术研发人员:张承庆郭晓东张龙哺刘德强段晓政
申请(专利权)人:北京中专翻译有限公司
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1