本发明专利技术提供了用于提高多语语料库中词对齐质量的方法和装置。根据本发明专利技术的一个方面,提供了一种用于提高多语语料库中词对齐质量的方法,其中,上述多语语料库包括第一语言、第二语言和至少一种其它语言中任意两种语言的多个对应的例句对以及每个例句对之间的词对齐信息;上述方法包括以下步骤:利用上述第一语言的第一例句和上述至少一种其它语言的与上述第一例句对应的第三例句之间的词对齐信息以及上述至少一种其它语言的上述第三例句和上述第二语言的与上述第三例句对应的第二例句之间的词对齐信息,推导上述第一语言的上述第一例句和上述第二语言的上述第二例句之间的词对齐;以及合并上述推导出的词对齐与上述多语语料库中的上述第一语言的上述第一例句和上述第二语言的上述第二例句之间的词对齐信息。
【技术实现步骤摘要】
在上述对齐中,例如上述虛线所示,对于日语与汉语,",二与"想"对齐,对于日语与英语,与"like to"对齐。由此可见,对于汉语与英语,应该是"想"与"like to"对齐,而实际上,"想"与 "would" 对齐。因此,在上述对齐中,由于与"like to"的对齐以及"想"与 "would"的对齐中存在错误,从而产生了词对齐互相矛盾的现象。附图说明图1是根据本专利技术的一个实施例的用于提高多语语料库中词 对齐质量的方法的流程图;以及0014图2是根据本专利技术的另一个实施例的用于提高多语语料库中9词对齐质量的装置的方框图。 具体实施例方式在本实施例中,如图1所示,以M种语言10为例进行说明。 此外,在本实施例中,以提高语言L1和语言L2之间的词对齐的质量和一 致性为例进行说明,而将其它语言作为中间语言。和中间语言LS的例句p中的词Pk之间的翻译概率tLS丄2(fjlpk)的乘积,然后针对中间语言iiLS的例句p中的所有词,对上述乘积求和,并将求和的结果作为推导出的 语言Ll的例句e中的某个词和语言L2的例句f中的某个词之间的翻译概 率。0027在上述公式(1)中,语言Ll的例句e中的词ej和中间语言 LS的例句p中的词pk之间的翻译概率tu-Ls(pklei)以及语言L2的例句f中的词fj和中间语言LS的例句p中的词Pk之间的翻译概率tLS丄2(fjlpk)是在获取词对齐信息30的过程中获得,并保存在上述词对齐信息30中。本发 明对翻译概率tu丄s(pklei)和翻译概率tts丄2(fjlpk)的获取方法没有任何限制, 其可以利用上述参考文献1中的统计方法或者本领域的技术人员公知的任 何其它方法获得。由此可见,可以通过将汉语作为中间语言,将日语和英语之 间的错误对齐L、" "like to"改善为",:- "would like to"。 下面以上述中间语言中的任意一个中间语言LS为例说明词 对齐推导单元201获得推导词对齐40的详细过程。 合并单元205将汉语和英语之间的标准词对齐和推导词对齐 合并后得到改善的词对齐为I would like to change my flight我想改一下我的航班此外,如果将本专利技术的词对齐质量和一致性得到提高的多语 语料库用于机器翻译、信息检索和信息抽取,那么可以极大地提高机器翻译、信息检索和信息抽取的准确性。为上述第二例句中的第j个词, t(fjlej)为合并后的上述第一语言的上述第一例句中的词ei和上述第二语言 的上述第二例句中的词fj之间的翻译概率,to(fjlej)为上述多语语料库中的 上述第一语言的上述第一例句中的词ei和上述第二语言的上述第二例句中 的词fj之间的翻译概率,q>0时,tq(fjleO为利用上述至少一个其它语言中 的第q个语言推导出的上述第一语言的上述第一例句中的词ei和上述第二 语言的上述第二例句中的词fj之间的翻译概率,M为上述第一语言、上述 第二语言和上述至少一种其它语言的总个数,以及k为权重。7. —种用于提高多语语料库中词对齐质量的装置,其中,上述多语 语料库包括第一语言、第二语言和至少一种其它语言中任意两种语言的多 个对应的例句对以及每个例句对之间的词对齐信息;上述装置包括词对齐推导单元,其利用上述第一语言的第一例句和上述至少一种其 它语言的与上述第一例句对应的第三例句之间的词对齐信息以及上述至少 一种其它语言的上述第三例句和上述第二语言的与上述第三例句对应的第 二例句之间的词对齐信息,推导上述第一语言的上述第一例句和上述第二 语言的上述第二例句之间的词对齐;以及合并单元,其合并上述词对齐推导单元推导出的词对齐与上述多语语 料库中的上述第 一语言的上述第 一例句和上述第二语言的上述第二例句之 间的词对齐信息。8. 根据权利要求7所述的装置,其中,上述词对齐推导单元包括 计算单元,其计算上述第一语言的上述第一例句中的词和上述至少一种其它语言的上述第三例句中的词之间的翻译概率与上述第二语言的上述第二例句中的词和上述至少一种其它语言的上述第三例句中的上述词之间的翻译扭无率的乘积;以及求和单元,其针对上述至少一种其它语言的上述第三例句中的所有词, 对上述乘积求和;其中,将上述求和的结果作为推导出的上述第一语言的上述第一例句 中的上述词和上述第二语言的上述第二例句中的上述词之间的翻译概率。9. 根据权利要求7所述的装置,其中,上述词对齐推导单元利用以 下公式推导上述第一语言的上述第一例句中的词和上述第二语言的上述第 二例句中的词之间的翻译概率<formula>formula see original document page 5</formula>其中,Ll为上述第一语言,L2为上述第二语言,LS为上述至少一种 其它语言中的任意一种语言,e为上述第一语言的上述第一例句,f为上述 第二语言的上述第二例句,p为上述至少一种其它语言的上述第三例句, ei为上述第一例句中的第i个词,fj为上述第二例句中的第j个词,pk为上 述第三例句中的第k个词,tu丄2(fjlei)为上述第一语言的上述第一例句中的 词ej和上述第二语言的上述第二例句中的词fj之间的翻译概率,tms(pklei) 为上述第一语言的上述第一例句中的词ei和上述至少一种其它语言的上述第三例句中的词pk之间的翻译概率,tLS-L2(fjlpk)为上述第二语言的上述第二例句中的词f]和上述至少一种其它语言的上述第三例句中的词pk之间的 翻译概率,以及R为上述至少 一种其它语言的上述第三例句中的词的总个数。10. 根据权利要求7-9中任意一项所述的装置,其中,上述合并单元 包括计算单元,其计算上述词对齐推导单元推导出的上述第一语言的上述 第一例句中的词和上述第二语言的上述第二例句中的词之间的翻译概率与 上述多语语料库中的上述第一语言的上述第一例句中的上述词和上述第二语言的上述第二例句中的上述词之间的翻译概率的平均值。11. 根据权利要求10所述的装置,其中,上述平均值包括算术平均值、几何平均值、加权平均值或其组合。12. 根据权利要求7 9中任意一项所述的装置,其中,上述合并单元 利用以下公式合并上述词对齐推导单元推导出的词对齐与上述多语语料库 中的上述第一语言的上述第一例句和上述第二语言的上述第二例句之间的 词对齐信息《=0其中,e为上述第一语言的上述第一例句,f为上述第二语言的上述第 二例句,ej为上述第一例句中的第i个词,fj为上述第二例句中的第j个词, t(fjlei)为合并后的上述第一语言的上述第一例句中的词&和上述第二语言 的上述第二例句中的词fj之间的翻译概率,t。(fjlei)为上述多语语料库中的 上述第一语言的上述第一例句中的词ej和上述第二语言的上述第二例句中 的词fj之间的翻译概率,q>0时,tq(fjlei)为利用上述至少一个其它语言中 的第q个语言推导出的上述第一语言的上述第一例句中的词ei和上述第二 语言的上述第二例句中的词fj之间的翻译概率,M为上述第一语言、上述 第二语言和上述至少一种其它语言的总个数,以及k为权重。全文摘要本专利技术提供了用于提高多语语料库中词对本文档来自技高网...
【技术保护点】
一种用于提高多语语料库中词对齐质量的方法,其中,上述多语语料库包括第一语言、第二语言和至少一种其它语言中任意两种语言的多个对应的例句对以及每个例句对之间的词对齐信息;上述方法包括以下步骤: 利用上述第一语言的第一例句和上述至少一种其它语言的与上述第一例句对应的第三例句之间的词对齐信息以及上述至少一种其它语言的上述第三例句和上述第二语言的与上述第三例句对应的第二例句之间的词对齐信息,推导上述第一语言的上述第一例句和上述第二语言的上述第二例句之间的词对齐;以及 合并上述推导出的词对齐与上述多语语料库中的上述第一语言的上述第一例句和上述第二语言的上述第二例句之间的词对齐信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴华,王海峰,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。