一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
【技术实现步骤摘要】
本专利技术属于自然语言处理领域,特别涉及口语机器自动翻译方法和跨语言信息检索方法。
技术介绍
口 语翻译(Spoken Language Translation, SLT)又叫语音翻译 (Speech-to-speech Translation, SST),就是利用计算机实现一种语言的语音到另一种语 言语音的翻译过程。其基本思想是让计算机像人一样充当持不同语言的说话人之间翻译的 角色。由于口语翻译涉及语言学、计算语言学、计算机科学和技术、语音识别与语音合成以 及通讯技术等多种学科和技术,因此开展这项研究具有重要的科学意义。而该技术一旦获 得突破,可以应用于社会生活的各个方面,例如,国际民航信息咨询,国际会议(包括体育 运动会)信息综合服务,旅游信息咨询等,因此,该技术又蕴涵着潜在的巨大的社会效益和 经济利益。为此,许多发达国家竞相投入巨资开展全国性或多国性的联合攻关。 目前的口语翻译系统都是首先将源语言的语音信号转换成文字,然后再对文字进 行分析、转换、生成,最后将译文转换成语音信号输出。也就是说,口语翻译系统主要由语音 识别、机器翻译和语音合成三个主要模块构成。正如前所述,目前的口语翻译系统首先由语 音识别模块将语音信号转化成文字,然后翻译模块再对文字进行翻译处理。所以可以说, 这里并没有很好的将语音识别和机器翻译真正有机统一和结合起来,整个系统相当于串联 结构,前端的语音识别的错误会毫无保留的延续到后续的翻译模块当中。而当今的翻译方 法无论是基于短语或基于句法的翻译系统,实际上还是针对字(单字或多字)进行训练和 解码的,整个训练和解码流程如图1所示,该实施步骤为1)在训练阶段,输入的是基于字 (单字或多字)的汉外训练语料,通过步骤A1进行基于字的词对齐训练,获取基于字的词对 齐文件,然后通过步骤A2,进行语言模型的训练,获取基于字的语言模型,通过步骤A3进行 翻译模型的训练,获取基于字的翻译模型,而后通过步骤A4进行基于字的最小错误训练, 获取基于字的翻译模型下的各种特征权重和各种优化参数,最后通过A5进行解码,得到最 终翻译结果。从该流程图我们可以很清楚的看到,因为整个训练和解码过程都是基于字的, 所以如果一旦语音识别输出的文字有误,则后续的基于字的翻译系统就很难对前端的错误 得到很好的纠正,从而导致翻译质量下降。而且口语翻译系统由于口语的多变性尤其是汉 语中大量同音异形字的存在会导致语音识别结果往往出现同音异形字,这对于基于字的翻 译方法而言就成了未登陆词,即便不是未登陆词,也会导致组合的片段无法在翻译知识中 找到很好的对应片段,使得翻译质量大大降低。也就是说以往的基于字形式的语音翻译方 法根本无法解决这种同音异形字带来的错误,使得本来可以召回的这部分待翻译内容变成 未登陆词或错误词汇片段,找不到相应义项导致翻译失败。
技术实现思路
为了解决这个问题,本专利技术提出了利用拼音替代汉字甚至是利用拼音和汉字两者相结合的方法来对翻译模块进行训练和解码,不仅能够有效降低语音识别由于同音异形字导致的错误,而且由于将拼音和汉字相互结合,能够获取更准确的翻译规则,从而增强系统的鲁棒性,提高口语翻译系统的质量。针对现有技术的问题,本专利技术的目的是对现有的口语翻译系统进行改善提高,提出一种将拼音和汉字相结合的翻译方法,希望利用拼音和汉字的结合来有效降低未登陆词导致的错误,并通过两者相互结合的方法来提高词对齐的精度,生成更可信的翻译规则,从而提高翻译质量。为此本专利技术提供一种新的口语翻译方法。 为了实现所述的目的,本专利技术提供一种将拼音和汉字相结合的方法用于口语翻译系统,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括 步骤SI :对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料; 步骤S2 :利用基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对 齐;利用基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐; 步骤S3 :对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合,得 到融合后的词对齐文件; 步骤S4 :结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并 学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料, 对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻 译模型; 步骤S5 :对基于拼音的汉外训练语料中的外语部分进行学习获取N元文法的概率 信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习获取 N元文法的概率信息,得到基于汉字的语言模型; 步骤S6 :利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集 上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重及相关参数;利用 基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得 到基于汉字的翻译方法的各个特征的特征权重及相关参数; 步骤S7 :利用基于拼音的翻译方法的各个特征的特征权重及相关参数,并结合基 于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解 码输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重及 相关参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字 的解码系统中进行解码输出测试集的基于汉字的翻译结果; 步骤S8 :将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果 送入系统融合模块进行融合,经过打分算法来对基于拼音和基于汉字的翻译结果进行融合 生成系统融合后的测试集的翻译结果; 步骤S9 :从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的 翻译结果输出。本专利技术的积极效果采取一种将拼音和汉字相互结合的方法来进行翻译知识的获取。该专利技术不仅能够很好的召回由于语音识别同音异形字带来的错误,而且因为两者相互结合进行翻译知识获取,可以很好的提高词对齐精度和翻译规则的准确性,从而能够很有效的改善翻译质量。该方法很好的克服了传统仅仅依赖于单字或多字的翻译方法,从而能够跟语音识别结果很好的统一起来进行有效降噪,提高了语音翻译系统的鲁棒性和准确性。该专利技术方法简单可行而且可以扩展到文本翻译系统上。初步实验表明,该方法大大提高了语音系统的翻译质量,与目前最流行鲁棒的基于短语(多字)的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10% 。附图说明 图1本专利技术一个基于字(单字或多字)的汉外口语自动翻译系统框架图 图2本专利技术一个基于拼音和汉字相结合的汉外口语自动翻译系统框架图 图3本专利技术一个基于汉字和拼音对比翻译示意图。具体实施例方式下面结合附图详细说明本专利技术技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,面对其不起任何限定作用。 本专利技术的核心思想在本文档来自技高网...
【技术保护点】
一种拼音和汉字相结合的汉外口语自动翻译方法,其特征在于,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括:步骤S1:对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料;步骤S2:利用基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐;利用基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐;步骤S3:对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合,得到融合后的词对齐文件;步骤S4:结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型;步骤S5:对基于拼音的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于汉字的语言模型;步骤S6:利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重及相关参数;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重及相关参数;步骤S7:利用基于拼音的翻译方法的各个特征的特征权重及相关参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重及相关参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码输出测试集的基于汉字的翻译结果;步骤S8:将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,经过打分算法来对基于拼音和基于汉字的翻译结果进行融合生成系统融合后的测试集的翻译结果;步骤S9:从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出。...
【技术特征摘要】
一种拼音和汉字相结合的汉外口语自动翻译方法,其特征在于,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括步骤S1对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料;步骤S2利用基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐;利用基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐;步骤S3对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合,得到融合后的词对齐文件;步骤S4结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型;步骤S5对基于拼音的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于汉字的语言模型;步骤S6利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重及相关参数;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重及相关参数;步骤S7利用基于拼音的翻译方法的各个特征的特征权重及相关参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重及相关参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码输出测试集的基于汉字的翻译结果;步骤S8将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,经过打分算法来对基于拼音和基于汉字的翻译结果进行融合生成系统融合后的测试集的翻译结果;步骤S9从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出。2. 根据权利要求1所述的汉外口语自动翻译方法,其特征在于,所述将所有连续汉字 转化为相应的拼音的步骤包括步骤Sll :首先收集汉语常见字和常见词的相应的字音转化对应表; 步骤S12 :直接查找这两个对应表对原始基于汉字的语料进行字音转换。3...
【专利技术属性】
技术研发人员:周玉,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。