双语词对齐方法和装置、训练双语词对齐模型的方法和装置制造方法及图纸

技术编号:2838813 阅读:155 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。本发明专利技术的双语词对齐方法,包括:利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,具体地,涉及自然语言处理中双语词对齐的技术和统计机器翻译技术。
技术介绍
词对齐在自然语言处理中被广泛地使用。现有的词对齐技术,通常使用统计词对齐模型,把双语句子中互为译文的词对对应起来。统计词对齐模型包含用于确定双语句子中互为译文的词对的统计信息。在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年发表的文章“The Mathematics of Statistical Machine TranslationParameter Estimation”(发表于Computational Linguistics,19(2)263-311)中描述了关于统计机器翻译模型和统计词对齐模型以及相应的参数估计方法。但是,由于目前统计词对齐模型利用大规模未标注的双语语料来无指导地训练统计词对齐模型,因此,这样的统计词对齐模型会导致产生很多不正确的对齐。如果有人工进行了词对齐标注的双语语料来进行有指导地训练,将可以得到精度更高的对齐模型。另一方面,人工标注大规模双语语料是一件费时费力的工作。而如果只需人工标注少量语料,则不会占用太多的人力和时间。
技术实现思路
为了解决上述现有技术中存在的问题,本专利技术提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。根据本专利技术的一个方面,提供了一种双语词对齐方法,包括利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。根据本专利技术的另一个方面,提供了一种训练双语词对齐模型的方法,包括利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及利用上述扩展了的标注的双语语料,训练双语词对齐模型。根据本专利技术的另一个方面,提供了一种双语词对齐装置,包括模型训练单元,其利用进行了词对齐的标注的双语语料,训练双语词对齐模型;词对齐单元,其利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;模型再训练单元,其利用上述由判断单元扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及再次词对齐单元,其利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。根据本专利技术的另一个方面,提供了一种训练双语词对齐模型的装置,包括初始模型训练单元,其利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;词对齐单元,其利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及模型训练单元,其利用上述由判断单元扩展了的标注的双语语料,训练双语词对齐模型。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本专利技术上述的特点、优点和目的。图1是根据本专利技术一个实施例的双语词对齐方法的流程图;图2是根据本专利技术一个实施例的训练双语词对齐模型的方法的流程图;图3是根据本专利技术一个实施例的双语词对齐装置的方框图;以及图4是根据本专利技术一个实施例的训练双语词对齐模型的装置的方框图。具体实施例方式下面就结合附图对本专利技术的各个优选实施例进行详细的说明。图1是根据本专利技术一个实施例的双语词对齐方法的流程图。如图1所示,首先在步骤101,利用进行了词对齐的标注的双语语料,训练双语词对齐模型。在本步骤中,标注的双语语料是由专业人员(例如,翻译人员)手工进行了词对齐标注的双语语料,其中包括多个互为译文的双语句子以及每对双语句子的词对齐信息。虽然标注的双语语料越大,系统的性能越好,但是,由于手工进行词对齐标注费时费力,因此,相对于后面描述的未标注语料来说,标注语料是很小的。在本实施例中,双语对齐模型采用至少包含词翻译概率(wordtranslation probability)、位置扭曲概率(position distortion probability)和词衍生概率(word fertility probability)的统计词对齐模型。其中,词翻译概率p(ws|wt)是目标语言词汇wt翻译到源语言语词汇ws的概率;位置扭曲概率p(j|i,l,m)是给定源语言句子的长度m,目标语句子的长度l的情况下,目标语言句子中第i个位置对应到源语言句子中第j个位置的概率。词汇的衍生概率p(i|wt)是目标语言词汇wt对应i个源语言词汇的概率。另外,在本实施例中,双语词对齐模型包括正向双语词对齐模型和反向双语词对齐模型。在本步骤中,利用标注的双语语料,训练正向双语词对齐模型,并且训练反向双语词对齐模型。例如,对于中/英双语语料,需要训练中英词对齐模型和英中词对齐模型。接着,在步骤105,利用前面步骤101中训练的双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐。在本实施例中,采用包含词翻译概率、位置扭曲概率和词衍生概率的双语词对齐模型,具体的对齐方式为1.利用词汇翻译概率和位置对齐概率,为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。2.在对齐序列Ai的基础上,利用词汇翻译概率,位置扭曲模型和词汇衍生模型,通过尝试交换任意两个对齐或改变一个对齐,来寻找更好的对齐序列Ai+1。3.重复过程2,直到没有更好的对齐序列被发现。在此,本领域技术人员应当可以理解,对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。在本步骤中,利用前面步骤101训练出的双向双语词对齐模型,对未标注的双语语料中的多对双语句子进行双向词对齐,从而分别得到正向词对齐结果和反向词对齐结果。接着,在步骤110,判断每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到标注的双语语料中并将该对双语句子从未标注的双语语料中删除。具体地,在本实施例中,计算每对双语句子的正向词对齐结果A1和反向词对齐结果A2的交集A1∩A2; 计算该对双语句子的正向词对齐结果A1和反向词对齐结果A2的并集A1∪A2;如果上述交集A1∩A2中的元素个数与上述并集A1∪A2中的元素个数的比率R,R=#(A1∩A2)#(A1∪A2)]]>大于一个预先定义的阈值th,则判断该对双语句子的词对本文档来自技高网...

【技术保护点】
一种双语词对齐方法,包括:利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴华王海峰刘占一
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1