【技术实现步骤摘要】
本专利技术涉及机器翻译
,特别是涉及一种双向词语对齐方法及装置。
技术介绍
随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。在这种需求的带动之下,用机器翻译系统来协助人们快速翻译、建档,已成为无法避免的趋势。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。由于互联网中存在的语言种类多,各语言又具有大量的多义性,并处于时时刻刻的变化之中,因此,如何为用户提供高质量的翻译服务仍然是一个难题。词语对齐旨在计算平行文本中词语之间的对应关系,它最早是作为机器翻译系统的中间结果提出。词语对齐的质量直接影响机器翻译的质量,因此,词语对齐在机器翻译中起着关键作用。现有机器翻译系统广泛使用生成式的单向词语对齐模型,其基本假设是每个目标语言词仅仅与一个源语言词产生对应关系,一个源语言词可以和零个或多个目标语言词产生对应关系。然而,这种假设无法很好地对现实中词语对齐的对称性进行建模,更无法统一处理复杂的词语对齐情况,如一对多、多对一、多对多等。目前,解决该问题的主要方法是对两个方向的单向词语对齐模型分别进行训练,训练完成之后使用启发式规则对两个非对称的词语对齐结果进行合并。虽然利用启发式规则进行合并的方法能够在一定程度降低词语对齐的错误率,然而由于对两个方向的单向词语对齐模型是分别进 >行训练的,无法解决词语对齐的对称性问题,词语对齐的错误率仍然较高。为了解决词语对齐的对称性问题,目前机器翻译系统也有使用一致性模型,其假设目标语言和源语言的词均为一对一的对齐,即构建了一个完全对称的模型。虽然一致性模型极大地提高了词语对齐的精度,但是由于一对一的假设过于强化,降低了词语对齐的召回率,并且违背了词语对齐的实际情况,对于本身对应关系不好的语言对效果较差,如在处理一对多、多对一、多对多等复杂的词语对齐情况时,效果较差。
技术实现思路
(一)要解决的技术问题本专利技术提供一种双向词语对齐方法及装置,以解决现有技术中无法很好的对词语对齐的对称性进行建模、词语对齐的错误率高,在处理一对多、多对一、多对多等复杂的词语对齐情况时对齐效果差的问题。(二)技术方案为了解决上述技术问题,本专利技术提出了以下技术方案。一方面,本专利技术提供一种双向词语对齐方法,包括:A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建初始目标函数;C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。进一步地,所述步骤B前还包括步骤:构建数据集以及对所述数据集进行预处理;所述构建数据集包括收集平行双语句对,并将所述双语句对作为训练语料;所述对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切分成词、转换大小写和过滤无效字符。具体地,所述步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;所述步骤C包括:C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2;C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函数值;C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,并执行步骤C6;否则返回步骤C4;C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。可选地,所述一致性评估函数一为:Scorewa=2|a1∩a2|-|a1∪a2|;其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连线的数目。优选地,所述步骤A还包括:构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型;所述步骤B包括:利用一致性评估函数,融合所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建初始目标函数;所述一致性评估函数还包括用于对所述第一词语对齐模型、第二词语对齐模型的词语对齐和短语切分的一致性进行衡量的一致性评估函数二;所述步骤C包括:C1’,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2、源语言的第一短语切分结果b1、目标语言的第二短语切分结果b2;C2’,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;利用一致性评估函数二衡量词语对齐与短语切分的一致性,得到平行双语句对(s,t)的词语对齐与短语切分一致性得分;C3’,将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平行双语句对的词语对齐与短语切分一致性得分相加,组成目标函数值;C本文档来自技高网...
【技术保护点】
一种双向词语对齐方法,其特征在于,包括:A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建初始目标函数;C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
【技术特征摘要】
1.一种双向词语对齐方法,其特征在于,包括:
A、构建源语言到目标语言的第一词语对齐模型和目标语言到源
语言的第二词语对齐模型;
B、利用一致性评估函数,融合所述第一词语对齐模型和第二词
语对齐模型,构建初始目标函数;
C、利用一致性评估函数,对所述第一词语对齐模型和第二词语
对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的
模型;
D、利用所述优化目标函数及联合训练得到的模型,对平行双语
句对进行词语对齐,得到双向词语对齐结果。
2.根据权利要求1所述的双向词语对齐方法,其特征在于,所述
步骤B前还包括步骤:
构建数据集以及对所述数据集进行预处理;
所述构建数据集包括收集平行双语句对,并将所述双语句对作为
训练语料;
所述对数据集进行预处理包括对数据集中的源语言和目标语言
文本中的句子切分成词、转换大小写和过滤无效字符。
3.根据权利要求2所述的双向词语对齐方法,其特征在于,所述
步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二
词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;
所述步骤C包括:
C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型
和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对
齐结果a1、目标语言到源语言的第二词语对齐结果a2;
C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语
对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性
\t得分;
C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,
得到目标函数值;
C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函
数值;
C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或
判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整
过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二
词语对齐结果a2,并执行步骤C6;
否则返回步骤C4;
C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第
二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型
的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到
预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联
合训练得到的模型。
4.根据权利要求3所述的双向词语对齐方法,其特征在于,所述
一致性评估函数一为:
Scorewa=2|a1∩a2|-|a1∪a2|;
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生
成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语
对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连
线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连
线的数目。
5.根据权利要求3所述的双向词语对齐方法,其特征在于,所述
步骤A还包括:
构建用于对源语言中的短语进行切分的第一短语切分模型和用
\t于对目标语言中的短语进行切分的第二短语切分模型;
所述步骤B包括:利用一致性评估函数,融合所述第一词语对齐
模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,
构建初始目标函数;所述一致性评估函数还包括用于对所述第一词语
对齐模型、第二词语对齐模型的词语对齐和短语切分的一致性进行衡
量的一致性评估函数二;
所述步骤C包括:
C1’,针对数据集中的平行双语句对(s,t),利用第一词语对齐模
型、第二词语对齐模型、第一短语切分模型和第二短语切分模型分别
求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源
语言的第二词语对齐结果a2、源语言的第一短语切分结果b1、目标语
言的第二短语切分结果b2;
C2’,利用一致性评估函数一衡量第一词语对齐结果a1和第二词
语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致
性得分;利用一致性评估函数二衡量词语对齐与短语切分的一致性,
得到平行双语句对(s,t)的词语对齐与短语切分一致性得分;
C3’...
【专利技术属性】
技术研发人员:孙茂松,柳春洋,刘洋,栾焕博,刘奕群,马少平,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。