本发明专利技术公开了一种交互式预测输入法,涉及语言翻译技术领域;解决了现有交互式机器翻译具有延迟,实用性低的技术问题;该技术方案包括:调用机器翻译接口把用户输入的源语言分成M个片段;根据分片信息,把每个片段进行翻译并返回N个最佳候选列表;正式翻译的过程中,自动从M*N的候选列表中进行检索,并给出与原文相关的翻译提醒。
【技术实现步骤摘要】
本专利技术涉及语言翻译
,特别涉及。
技术介绍
当前,机器翻译已经成熟的应用在教学、科研和商业领域。其中在语言服务行业 中机器翻译已经应用在后编译(post-edit)技术中,在该技术中机器翻译首先把原文翻 译出一个结果,然后译员根据译文再次进行修改。如今机器翻译跟计算机辅助翻译系统 (Computer Aided Translation)的结合是大势所趋,许多厂商,诸如 Google Toolkit、SDL Trados、MemoQ、Lingotek、Matecat、yeekit等都把机器翻译作为提高译员翻译效率的辅助 工具。 机器翻译跟翻译行业结合最早是源自交互式机器翻译技术。交互式机器翻 译(Interactive Machine Translation)起源于 1973 年 Kay 的 MIND 项目,发展壮大于 Langlais等科研工作者21世纪初期构建的TransType和TransType2项目。最近几年,传 统的检索模型(searching model)又被扩展到各种模型上,诸如Gonzdlez-Rubio的SCFG模 型、Alabau的结构预测和黄国平的对数线性模型。可以说交互式机器翻译从上世纪初至今, 很多科研工作者提出各种方法去提高交互式机器翻译的质量,目标是借助于后编译技术提 高译员的翻译效率。然而,实践中证明实际译员并不愿意在粗糙的机器翻译译文上"大动手 脚"。究其原因就是当前机器翻译理论和技术的限制导致机器翻译的译文偏离实际意义很 大甚至"风马牛不相及"。虽然科研工作者从科研的角度证明交互式机器翻译可以提高译员 的翻译效率,但是这类方法并不被实际中的专业译员所采用,因为被证明同样耗时费力,而 且交互式机器翻译的动态解码(dynamic decoding)过程非常的耗时,明显的延迟感让商业 系统至今不愿接纳。 从稍微正式的公式来描述,传统的交互式机器翻译(后编译技术)要考虑译员 已经输入的信息,叫做前缀(prefix),用t p表示,系统会根据这些前缀生成最相关的后缀 (suffix)信息供译员参考选择,用ts表示。以上描述可以表示成如下公式: 该公式从公式(2)中变形而来,其中tpts=t,在首轮迭代中,系统将会根据原文信 息产生所有可能的候选翻译,这些候选翻译构成了巨大的单词图(word-graph)。译员每一 次的编辑修改都会从这些巨大的单词图中搜索有用的信息,并对后缀信息进行重新计算。 从以上描述中可见,传统的后编译其实检索空间非常大,2014年的时候科研工作 者Koehn认识到该问题,并提出把前缀限定在译员输入的最后一个词上再进行计算。该方 法被证明可以大大的减少交互处理时间。2015年的时候黄国平等提出一种对数线性模型, 并开发出一款类似Google和搜狗拼音的面向计算机辅助翻译系统的输入法。然而两者的 共同点都是在译员的输入中还将不断的与机器翻译进行交互,并不断的根据译员的输入而 不断更改修正提示的内容,实时的产生新的提示内容虽好,但是带给专业译员的延迟感将 会降低其实用性。
技术实现思路
本专利技术要解决的是现有交互式机器翻译具有延迟,实用性低的技术问题。 为了解决上述问题,本专利技术提供了,其特征在于,包括:调 用机器翻译接口把用户输入的源语言分成M个片段;根据分片信息,把每个片段进行翻译 并返回N个最佳候选列表;正式翻译的过程中,自动从M*N的候选列表中进行检索,并给出 与原文相关的翻译提醒。 更优地,所述把源语言分成M个片段中的片段为短语片段。 更优地,其特征在于,把每一个译文的每个单词位置进行标示,根据自动对齐获取 到原文和译文的单词对应翻译关系,得到源语言的短语片段。 更优地,所述根据分片信息,把每个片段进行翻译并返回N个最佳候选列表;将所 述最佳候选列表存放在缓存中。 更优地,所述输入法仅与用户的输入前缀有关,不会再次调用机器翻译去修改后 缀候选列表;所述输入前缀为已经输入的信息。 通过以上技术方案可知,本专利技术提供,具有以下优点: (1)翻译的过程中,能快速响应,没有延迟感; (2)不需要更改译员的翻译输入习惯,不需要安装,有需要的翻译就提示,没有相 关内容就不提醒,不干扰原来的输入法,不产生额外的计算操作,有效的减少译员的输入次 数; (3)有效避免了实时的跟机器翻译交互中涉及的大量计算问题。【附图说明】 图1 示意图; 图2实际产品中交互式输入法的效果。【具体实施方式】 下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。 需要说明的是,如果不冲突,本专利技术实施例以及实施例中的各个特征可以相互结 合,均在本专利技术的保护范围之内。 实施例一,,如图1、图2所示,包括:调用机器翻译接口把 用户输入的源语言分成M个片段;根据分片信息,把每个片段进行翻译并返回N个最佳候选 列表;正式翻译的过程中,自动从M*N的候选列表中进行检索,并给出与原文相关的翻译提 醒。 本专利技术提出,也称预测输入法。其中,根据译员的反馈得出 以下三个事实: (1)专业译员首先会快速的扫描原文文本信息,这个过程会持续两秒以上的时间, 之后才会开始进行翻译; (2)绝大部分译员有个人习惯常用的输入法,个人电脑上会有安装,而且并不愿意 安装过多输入法; (3)希望给出有用的提示,减少输入,而且只要在翻译的过程中,希望提示速度越 快越好。 事实⑴指明有至少两秒的准备时间处理原文句子,在这段时间内可以把有效的 预测给译员准备好;事实(2)要求尽可能的把预测输入法集成到辅助翻译系统中,而不是 做成一个独立的安装包;事实(3)说明要从技术上快速的为译员提供有效的提示,有提示 就提示,没有相关提示就可以隐藏,不得干扰其原有输入法。 基于此,本专利技术提出了: 根据机器翻译对齐信息,把源语言句子分成m个若干片段(segment); 把每个片段进行调用机器翻译,并把机器翻译的n个最好的候选结果返回; 为减少搜索空间,从mXn个候选结果中,给出译员提示。 本专利技术所述的方法就是借助机器翻译让译员在翻译的时候既给出输入提示又考 虑原文信息。交互式预测输入法不再盲目的给出一大堆无用的提示,而是给出与原文相关 的文本。 为了更加实用的服务专业译员,本专利技术提出以下三个步骤的交互式预测法,其中 把"交互式"集中体现在两个方面:(1)译员拿到原文进行思考的过程,该过程是原文跟机 器翻译交互的过程;(2)译员思考完毕,正式翻译的过程,该过程是译员跟机器翻译产生的 候选列表进行交互的过程,且该提示均与原文信息相关。 ,具体为: (1)首先调用机器翻译接口把源语言分成M个片段。 其中机器翻译为特定研发的混合机器翻译系统,机器翻译结果中包含了对齐信 息,该对齐信息能够指明目标翻译的文本的每个片段来自原文信息的哪个部分。如图1所 示,给定源语言"交互式输入法可以加快译员的翻译速度。",根据机器翻译结果能够把源语 言分成6个短语片段:这个分法有别于 传统的分词,按照传统的分词,源语言将会被分成类似的9个结果片段:。 其中,上述6个短语片段产生的过程如下:首先系统把每一个译文的每个单词位 置进行标示,程序采用src-start,src-end、tgt-start和tgt-end作为标识符。然后通过 高勤的本文档来自技高网...
【技术保护点】
一种交互式预测输入法,其特征在于,包括:调用机器翻译接口把用户输入的源语言分成M个片段;根据分片信息,把每个片段进行翻译并返回N个最佳候选列表;正式翻译的过程中,自动从M*N的候选列表中进行检索,并给出与原文相关的翻译提醒。
【技术特征摘要】
【专利技术属性】
技术研发人员:田亮,程国艮,黄辉,
申请(专利权)人:中译语通科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。