一种多语种语料对齐方法、装置、设备及介质制造方法及图纸

技术编号:32922238 阅读:18 留言:0更新日期:2022-04-07 12:13
本发明专利技术公开了一种多语种语料对齐方法、装置、设备及介质,涉及自然语言处理技术领域。该方法通过获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种;从目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种;将待翻译语种对应的原始文本翻译成标准语种的标准文本,并对所有标准文本进行对齐识别,获取语料对齐结果,以实现三种及三种以上语种之间的语料对齐。语种之间的语料对齐。语种之间的语料对齐。

【技术实现步骤摘要】
一种多语种语料对齐方法、装置、设备及介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种多语种语料对齐方法、装置、设备及介质。

技术介绍

[0002]近年来,语料对齐在AI语言处理技术中使用广泛,传统的语料对齐是指将两个语种的文档实现句子的一一对应或段落的一一对应,以形成规范的语对,缺乏对三种及三种以上语种的语料对齐的研究。

技术实现思路

[0003]本专利技术所要解决的技术问题是如何实现三种及三种以上语种之间的语料对齐。因此,本专利技术提供一种多语种语料对齐方法、装置、设备及介质,以实现三种及三种以上语种之间的语料对齐。
[0004]本专利技术通过下述技术方案实现:
[0005]一种多语种语料对齐方法,包括:
[0006]获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种;
[0007]从所述目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种;
[0008]将待翻译语种对应的原始文本翻译成标准语种的标准文本,并对所有标准文本进行对齐识别,获取语料对齐结果。
[0009]进一步地,所述从所述目标语种中选定一个语种作为标准语种,包括:
[0010]将目标语种中出现次数最多的语种确定为标准语种;或者,
[0011]从目标语种选择一个与翻译需求匹配的语种作为标准语种。
[0012]进一步地,所述对所有标准文本进行对齐识别,获取语料对齐结果,包括:
[0013]对所有标准文本进行预处理,得到各标准文本的待处理词;
[0014]确定各标准文本中的待处理词的意思关系和位置关系,若不同标准文本中的待处理词的意思关系一致且处于相同位置,则认为待处理词对齐;
[0015]统计对齐的待处理词的数量,当对齐的待处理词的数量满足预设条件,则对应的语料对齐结果为语料匹配;
[0016]当对齐的待处理词的数量未满足预设条件,则对应的语料对齐结果为语料不匹配。
[0017]进一步地,所述对所有标准文本进行预处理,得到各标准文本的待处理词,包括:
[0018]根据断句标记对每一所述标准文本进行分句处理,得到各标准文本的句子;
[0019]对不同标准文本中的句子进行分词处理并去除停用词,得到每个标准文本的待处理词。
[0020]进一步地,每个句子携带有句子顺序编号;
[0021]所述确定各标准文本中的待处理词的意思关系和位置关系,包括:
[0022]对不同标准文本中同一句子顺序编号的所有待处理词进行意思关系确认,当意思关系一致,则对对应的待处理词进行位置关系判断;
[0023]当意思关系一致的待处理词在各自所在句子中的位置一致,则表示意思关系一致的待处理词在各自所在的句子中处于相同位置;
[0024]当意思关系一致的待处理词在各自所在句子中的位置不一致,则表示意思关系一致的待处理词在各自所在的句子中处于不同位置。
[0025]进一步地,所述对不同标准文本中同一句子顺序编号的所有待处理词进行意思关系确认,包括:
[0026]当不同标准文本中同一句子顺序编号的待处理词一致或者互为近义词、同义词,则表示该待处理词意思关系一致;
[0027]当不同标准文本中同一句子顺序编号的待处理词不互为近义词活同义词,则表示该待处理词意思关系不一致。
[0028]一种多语种语料对齐装置,包括:
[0029]文本语种判断模块,用于获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种;
[0030]文本语种划分模块,用于从所述目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种;
[0031]语料对齐判断模块,用于将待翻译语种对应的原始文本翻译成标准语种的标准文本,并对所有标准文本进行对齐识别,获取语料对齐结果。
[0032]进一步地,所述语料对齐判断模块包括:
[0033]文本预处理单元,用于对所有标准文本进行预处理,得到各标准文本的待处理词;
[0034]待处理词对齐判断单元,用于确定各标准文本中的待处理词的意思关系和位置关系,若不同标准文本中的待处理词的意思关系一致且处于相同位置,则认为待处理词对齐;
[0035]第一语料对齐判断单元,用于统计对齐的待处理词的数量,当对齐的待处理词的数量满足预设条件,则对应的语料对齐结果为语料匹配;
[0036]第二语料对齐判断单元,用于当对齐的待处理词的数量未满足预设条件,则对应的语料对齐结果为语料不匹配。
[0037]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多语种语料对齐方法。
[0038]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多语种语料对齐方法。
[0039]本专利技术提供一种多语种语料对齐方法、装置、设备及介质,通过获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种;从目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种;将待翻译语种对应的原始文本翻译成标准语种的标准文本,并对所有标准文本进行对齐识别,获取语料对齐结果,以实现三种及三种以上语种之间的语料对齐。
附图说明
[0040]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:
[0041]图1为本专利技术一种多语种语料对齐方法的一流程图。
[0042]图2为图1中步骤S30的一具体流程图。
[0043]图3为图3中步骤S31的一具体流程图。
[0044]图4为图3中步骤S32的一具体流程图。
[0045]图5为本专利技术一种多语种语料对齐装置的结构示意图。
[0046]图6为本专利技术计算机设备的一示意图。
具体实施方式
[0047]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。
[0048]本专利技术提供一种多语种语料对齐方法,该方法不仅适用于三种及三种以上语种的语料对齐,同样也适用于两种语种的语料对齐。该方法可应用于不同电子设备中,该电子设备包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。
[0049]在一实施例中,如图1所示,本专利技术提供一种多语种语料对齐方法,包括:
[0050]S10:获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种。
[0051]S20:从目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种。
[0052]S30本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种语料对齐方法,其特征在于,包括:获取原始文本,并通过语种识别技术对原始文本进行语种识别,得到原始文本的语种作为目标语种;从所述目标语种中选定一个语种作为标准语种,并将目标语种中剩余的语种作为待翻译语种;将待翻译语种对应的原始文本翻译成标准语种的标准文本,并对所有标准文本进行对齐识别,获取语料对齐结果。2.根据权利要求1所述的一种多语种语料对齐方法,其特征在于,所述从所述目标语种中选定一个语种作为标准语种,包括:将目标语种中出现次数最多的语种确定为标准语种;或者,从目标语种选择一个与翻译需求匹配的语种作为标准语种。3.根据权利要求1所述的一种多语种语料对齐方法,其特征在于,所述对所有标准文本进行对齐识别,获取语料对齐结果,包括:对所有标准文本进行预处理,得到各标准文本的待处理词;确定各标准文本中的待处理词的意思关系和位置关系,若不同标准文本中的待处理词的意思关系一致且处于相同位置,则认为待处理词对齐;统计对齐的待处理词的数量,当对齐的待处理词的数量满足预设条件,则对应的语料对齐结果为语料匹配;当对齐的待处理词的数量未满足预设条件,则对应的语料对齐结果为语料不匹配。4.根据权利要求3所述的一种多语种语料对齐方法,其特征在于,所述对所有标准文本进行预处理,得到各标准文本的待处理词,包括:根据断句标记对每一所述标准文本进行分句处理,得到各标准文本的句子;对不同标准文本中的句子进行分词处理并去除停用词,得到每个标准文本的待处理词。5.根据权利要求4所述的一种多语种语料对齐方法,其特征在于,每个句子携带有句子顺序编号;所述确定各标准文本中的待处理词的意思关系和位置关系,包括:对不同标准文本中同一句子顺序编号的所有待处理词进行意思关系确认,当意思关系一致,则对对应的待处理词进行位置关系判断;当意思关系一致的待处理词在各自所在句子中的位置一致,则表示意思关系一致的待处理词在各自所在的句子中处于相同位置;当意思关系一致的待处理词在各自所在句子中的位置不一...

【专利技术属性】
技术研发人员:廖富林李明张马成
申请(专利权)人:成都优译信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1