为了解决英汉机器翻译的调序带来的逻辑混乱问题,结合基于短语的统计机器翻译和同声传译的顺译技术,本发明专利技术建立了一种生成中介汉语语言模型的翻译方法。它包括(1)把英语句子按照英语语法分割为短语;(2)采用机器翻译把英语短语译为汉语词语,其中常用的介词,连词和关系代词不翻译;(3)把翻译好的汉语词语与英语介词,连词和关系代词按照英语句子原来的顺序连接;(4)汉语词语之间使用空格分隔符分割。这样就得到了中介汉语语言的译文。这种中介汉语语言的译文具有可读性好,保留了英语的表达方式而逻辑清晰,可以实现低成本而准确的机器翻译。
【技术实现步骤摘要】
一种生成英汉机器翻译的中介汉语语言模型的翻译方法
本专利技术涉及机器翻译领域,特别是涉及一种生成英汉机器翻译的中介汉语语言模型的翻译方法。
技术介绍
英语是世界上最常用的语言之一,也是国际政治、经济、文化、教育、科技等领域中最常用的语言。以汉语为母语的人们,虽然在学校期间系统学习过英语,但是获取英语信息的主要方式还是通过英汉翻译。在信息时代,英语信息爆炸式增长,只有使用机器翻译才能解决以汉语为母语的人们快速获取英语信息的问题。目前,基于短语的英汉统计机器翻译已经对简单短句的翻译取得了非常好的效果,成为英汉机器翻译的主流和基础。由于英语和汉语在逻辑思维和表达方式上的差别,在长句和逻辑关系复杂的短句的翻译中,翻译得到的汉语词语必须进行调序(Reordering),因此,调序问题成为英汉机器翻译中既重要又困难的问题。目前,语言专家周海中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题(机器翻译50年,《语文研究群言集》中山大学出版社,1997年。)。从研究外语学习的角度来看,美国语言学家Selinker提出了中介语言(interlanguage)的概念(L.Selinker,Interlanguage.InternationalReviewofAppliedLinguistics,10,209-241,1972)。所谓“中介语言”就是介于学习者母语和目的语之间的独立的语言系统。从机器翻译的角度,刘涌泉提出了“中介成分体系”(《外汉机器翻译中的中介成分体系》,《中国语文》1982年第2期)。它是根据外语-汉语机器翻译特点建立的一套特殊的句子成分体系,其中各个成分既不是原语成分,也不是译语成分,而是介于原语和译语之间的句子成分。虽然从语言学和机器翻译的角度上已经提出了中介语言的概念和模型,但是到现在还没有建立起任何一个具体的英汉机器翻译的中介语言模型。现代汉语与英语在主要语序上都是主语+谓语+宾语的形式,因此,英汉翻译在大的语序方面的调整相对较少。但是在很多具体方面,现代汉语主要有以下不同于英语的特点和规则。(1)汉语是连续书写的,词与词之间没有像英语单词之间作为分割符的空白。(2)现代汉语属于一种前修饰语,而英语是后修饰语,因此英语翻译为汉语时状语和定语一般要移位。(3)汉语的逻辑关系是隐式的,蕴含在句子中间,而英语的逻辑关系由介词和连词等明确表达。(4)汉语的单复数和动词时态不像英语那样明确。目前,虽然英汉机器翻译中一词多义的问题通过基于短语和上下文的方法得到了比较好的解决,但是上述语法特点和规则的不同造成了翻译结果基于现代汉语语言模型进行调序后逻辑变得混乱,常常出现错配导致表达错误。为了解决词语调序后逻辑混乱的问题,一个重要的方法就是采用顺序翻译的方法,即在翻译结果中保留英语短语的次序。英汉顺序翻译目前已经成功地应用于同声传译领域。由于同声传译即时性的特点,翻译人员只能尽量减少语言结构范围程度的调整,按照自己听到的原文顺序,不停地把句子切成个别的意群或概念单位,再把这些单位比较自然地连接起来,翻译出整体原意。这就是英汉同声传译的“顺句驱动”即“顺译”(syntacticlinearity)。顺译所得到的翻译结果虽然不能完全符合现代汉语的习惯,但是也基本能表达原文的意思。现在,英汉机器翻译可以把英语原文中的每个意群或短语比较准确地翻译成汉语词语,同声传译的顺译方法可以把这些翻译好的短语用顺序的方法连接起来。因此,我们可以结合机器翻译和同声传译的顺译两方面的优势和特点,建立既相对准确又具有较好可读性的英汉翻译的中介汉语语言模型,提高英汉机器翻译的效果。
技术实现思路
本专利技术所要解决的技术问题是,建立一种生成英汉机器翻译的中介汉语语言模型的翻译方法,把基于英语短语翻译得到的汉语词语顺序组织起来,既清晰地表达英语信息的逻辑关系,又具有较好的可读性,使以汉语为母语的读者能清楚地理解英语原文要表达的意思。本专利技术为解决技术问题而采取的技术方案为,提供一种生成英汉机器翻译的中介汉语语言模型的翻译方法。所述语言模型及其翻译方法如下:(1)把英语原文的每个句子按照语法划分为各种短语,包括名词短语,动词短语,介词短语,连词短语等;(2)把英语短语通过机器翻译方法翻译为相应的汉语词语,其中保留一些常用介词、连词和关系代词(如of,to,on,for,from,in,about,after,at,with,and,which,that)不翻译,即仍为英语单词;(3)把翻译后的汉语词语和保留的英语介词、连词和关系代词按照英语原句的顺序连接;(4)汉语词语之间以空格、下划线不影响阅读的字符分割。这样就得到了逻辑清晰,具有一定可读性的中介汉语语言的译文。这个介于英语和汉语之间的中介汉语语言可以用在机器翻译中,作为语言模型使用,这样就形成了中介汉语语言模型。虽然这种中介汉语语言模型在顺序上与现代汉语有一定的差别,而且间杂一些英语介词、连词等,从而导致在阅读过程中思维有一定跳跃反复,但是它在机器翻译领域和日常使用中具有以下优点。1.它的各个短语之间的顺序与源语言——英语——完全一致,很容易通过基于短语的统计机器翻译得到各个短语的准确汉语翻译,把汉语词语与英语的保留词顺序连接,就可以得到准确的中介汉语语言,因此其翻译成本极低。2.这种中介汉语语言,只含有少数几个简单的英语单词,只要学过初级英语,读者就可以顺利地阅读和理解,因此具有一定的实用性。3.这种中介汉语语言可以作为初级材料,提供给人工翻译,人工翻译只需要调整语序和简单修改,就可以得到高质量的译文。因此,它将大大降低人工翻译的工作量和成本。4.阅读这种中介语言可以快速掌握英语的常用语法和句式,提高使用者的使用地道英语进行表达和写作的能力。附图说明附图1是本专利技术提供的把一个英语句子翻译成中介汉语语言的流程图。具体实施方式按照附图1的流程,可以很容易地把英语句子准确翻译为中介汉语语言:英语句子1首先经过语法分析2分割为一组短语3,把名词短语,动词短语等通过机器翻译译为汉语词语4,并把它们与介词等按照英语的顺序连接,即生成了中介汉语语言的句子5。本翻译方法具有两个必要的文本转换:一是语法分析,把英语句子按照英语语法分割为一系列的短语;二是短语翻译,把英语短语翻译为汉语词语。其中的第一个转换属于英语的自然语言处理问题,已经有比较成熟的技术和方法。例如开源软件JTextPro,可以按照英语语言模型,对英语句子中的单词进行词性标注,并把多个单词组成名词短语,动词短语,连词短语,介词短语等。其中的第二个转换属于机器翻译领域。目前基于短语的统计机器翻译在短语翻译方面基本成熟,并且有谷歌翻译,百度翻译,微软翻译等一系列在线工具。因此,本专利技术的实施例采用JTextPro把英语句子分割为英语短语和采用百度在线翻译把英语短语翻译为汉语词语。下面主要结合实施例对本专利技术的中介汉语语言模型的特征和优点进行说明。实施例一.英语原文:WeshouldstudythehistoryandgrammarofChineselanguage.中介语言:我们应该研究历史and语法of汉语。这句英语非常简单,可以直接通过附图的流程把句子分割并翻译为中介汉语语言的译文。在这个中介汉语语言的译文中,有三个重要的本文档来自技高网...
【技术保护点】
一种英汉机器翻译的中介汉语语言模型及其翻译方法,包括:(1)把英语原文的每个句子按照英语语法划分为各种英语短语;(2)把英语短语通过机器翻译方法翻译为相应的汉语词语,其中保留一些常用介词、连词和关系代词不翻译;(3)把翻译后的汉语词语和保留的英语介词、连词和关系代词等按照英语原句的顺序连接;(4)汉语词语之间以空格等字符分割;(5)生成的中介汉语语言句子进一步组合形成翻译后的汉语文章,所得到的介于英语和汉语之间的语言模型就是中介汉语语言模型。
【技术特征摘要】
1.一种生成英汉机器翻译的中介汉语语言模型的翻译方法,包括:(1)把英语原文的每个句子按照英语语法划分为各种英语短语;(2)把英语短语通过机器翻译方法翻译为相应的汉语词语,其中保留一些常用介词、连词和关系代词不翻译;(3)把翻译后的汉语词语和保留的英语介词、连词和关系代词按照英语原句的顺序连接;(4)汉语词语之间以空格字符分割;(5)生成的中介汉语语言句子进一步组合形成翻译后的汉语文章,所得到的介于英语和汉语之间的语言模型就是中介汉语语言模型。2.根据权利要求1所述的一种生成英汉机器翻...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:吕海港,
类型:发明
国别省市:山西;14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。