多语机器翻译智能辅助处理方法和系统技术方案

技术编号:8413120 阅读:254 留言:0更新日期:2013-03-14 02:09
本发明专利技术公开的一种多语机器翻译智能辅助处理方法和系统。其方法包括如下步骤:根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集;结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。其加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。

【技术实现步骤摘要】

本专利技术涉及自然语言计算机处理
,尤其是涉及机器翻译
,特别是涉及一种多语机器翻译智能辅助处理方法和系统
技术介绍
在文本翻译的过程中,翻译人员通常需要将一种语言(源语言)翻译成另外一种语目(目标语目)。 近年来,基于机器翻译和翻译记忆的计算机辅助翻译解决了人工翻译中的一些问题,但是计算机辅助翻译通常有三个问题。第一,基于词的辅助翻译提示的粒度太小,部分词语的在句子中的翻译往往不是词语直接对应的目标语言候选。第二,基于移动调序的机器翻译后编辑形式的辅助翻译,很费时费力,翻译人员操作很不方便。第三,基于机器翻译的以短语为粒度的候选提示,首先将所有的短语翻译候选列出,然后让操作人员通过选择候选的方式的进行后编辑,这种方式一定程度地解决了词粒度的候选提示问题。但是,这种方式的短语候选翻译列表不能根据翻译人员输入而动态改变。翻译人员在翻译的过程中,要进行目标语言的输入。现有的目标语言输入方法通常是一种语言的音字转换过程,从翻译文本录入过程的角度来看,现有方法主要有四个不足。第一,现有的方法通常直接针对目标语言而设计,没有利用源语言的信息;第二,现有的方法,没有把人工翻译和机器翻译交互式地结合起来;第三,现有的方法很少有支持翻译的功能,翻译的粒度不够。第四,现有的方法无法结合已输入的目标语言上下文和翻译人员翻译习惯的进行智能翻译。
技术实现思路
本专利技术提供了一种多语机器翻译智能辅助处理方法和系统,其克服现有技术中存在的不足,加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。为实现本专利技术目的而提供了一种多语机器翻译智能辅助处理方法,包括如下步骤步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S300之后还包括如下步骤步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤Sioo重新进行未翻译源语言翻译,直至翻译完成。较优地,作为一可实施例,所述步骤SlOO包括如下步骤步骤S110,设已翻译目标语言集E=ei. . . effl(m>=l),则确定一个E的划分S: {(a, b) I l=〈a〈=b〈=m},对于任意的一个元素(a, b)属于S,计算确定一个源语言集对应的区间(a’,b’)的集合T,得到已翻译源语言区间集合;步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于O的整数; 步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后η个词previous_n_word, η为整数,η与所用的语言模型相对应;步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ;步骤S213’,根据η个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中对于action为〃选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为〃插入〃,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3 ;步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;其中,K’为大于等于I的整数。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,包括如下步骤步骤S211 ”,根据所获得的目标语言的语料,训练一个N-Gram语言模型;步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ;步骤S213”,对于短语翻译候选集合S中的一个串S,枚举s的所有前缀,构成一个S的前缀集S_Prefix ;步骤S214”,根据用户已输入的字符串,从后往前,分别取I-gram, 2-gram,. . . , n-gram的字符串,得到一个字符串集合T ;步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中; 步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Prefix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度;步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于I的整数;步骤S218”,对K”个候选的结果的概率做归一化;步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。较优地,作为一可实施例,所述步骤S300包括如下步骤步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合A_history ;步骤S320,检索语言模型提示集,K-best提示集;若语言模型提示集,K_本文档来自技高网...

【技术保护点】
一种多语机器翻译智能辅助处理方法,其特征在于,包括如下步骤:步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;步骤S200,根据源语言未翻译的区间扩展,生成K?best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集;步骤S300,结合输入历史提示集、语言模型提示集、以及K?best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。

【技术特征摘要】

【专利技术属性】
技术研发人员:滕志扬骆卫华刘群熊皓
申请(专利权)人:橙译中科信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1