多语言融合的语义表示方法、装置、存储介质及设备制造方法及图纸

技术编号:37078600 阅读:25 留言:0更新日期:2023-03-29 19:54
本申请实施例公开了一种多语言融合的语义表示方法、装置、存储介质及设备。该方法包括:利用高资源的源语言的多个数据样本中的文本信息对至少一种低资源的目标语言进行扩充,以得到至少一种目标语言的目标文本信息,并根据每个数据样本的文本信息和至少一种目标语言的目标文本信息确定多组平行数据,利用多组平行数据对初始语义表示模型进行训练,在训练的过程中,根据初始语义表示模型对每组平行数据中的文本信息和至少一种目标语言的目标文本信息分别进行处理的处理结果,和同一个标签信息来更新初始语义表示模型,利用高资源的源语言中学到的知识优化低资源的至少一种目标语言的语义表示,提高低资源的目标语言的语义表示的准确性。表示的准确性。表示的准确性。

【技术实现步骤摘要】
多语言融合的语义表示方法、装置、存储介质及设备


[0001]本申请涉及人工智能
,具体涉及一种多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]近年来,随着互联网的发展与进步,民族语言越来越多的出现在互联网中,针对民族语言的语义理解逐渐成为关注的重点。深度学习在许多自然语言处理任务中取得了令人惊叹的成就,特别是随着预训练语言模型的出现,让机器理解人类的语言有了突破性进展。但是,少数民族语言如藏语、维语本身资源匮乏,且缺少大规模语料库,虽然也有诸如多语言预训练语言模型对解决低资源语言问题做出的努力,但仍然没能进行很好的覆盖。因此,对于藏语、维语等少数民族语言的语义表示以及理解的问题仍然难以解决。

技术实现思路

[0003]本申请实施例提供一种多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备,可以利用高资源的源语言的文本信息的知识来优化至少一种低资源的目标语言的语义表示,提高低资源的目标语言的语义表示的准确性。
[0004]本申请实施例提供了一种多语言融合的语义表示方法,包括:
[0005]获取高资源的源语言所对应的数据集,所述数据集中包括多个数据样本,每个数据样本中包括所述源语言的文本信息和所述文本信息对应的标签信息;
[0006]利用每个数据样本中的所述文本信息,对至少一种低资源的目标语言进行扩充,以得到至少一种目标语言的目标文本信息;
[0007]根据每个数据样本中的所述文本信息和所述文本信息扩充得到的所述目标文本信息确定多组平行数据,每组平行数据中包括一个训练样本的所述文本信息和至少一种目标语言的所述目标文本信息;
[0008]根据多组平行数据对多语言融合的初始语义表示模型进行训练,以得到语义表示模型,其中,在训练过程中,根据所述初始语义表示模型对每组平行数据中的所述文本信息和至少一种目标语言的所述目标文本信息分别进行处理的处理结果,和每组平行数据中所述文本信息对应的标签信息来更新所述初始语义表示模型;
[0009]利用所述语义表示模型对待处理文本信息进行语义处理,以得到所述待处理文本信息的语义表示,所述待处理文本信息的语言为源语言或者至少一种目标语言中的任意一个。
[0010]本申请实施例还提供一种多语言融合的语义表示装置,包括:
[0011]获取模块,用于获取高资源的源语言所对应的数据集,所述数据集中包括多个数据样本,每个数据样本中包括所述源语言的文本信息和所述文本信息对应的标签信息;
[0012]扩充模块,用于利用每个数据样本中的所述文本信息,对至少一种低资源的目标语言进行扩充,以得到至少一种目标语言的目标文本信息;
[0013]数据确定模块,用于根据每个数据样本中的所述文本信息和所述文本信息扩充得到的所述目标文本信息确定多组平行数据,每组平行数据中包括一个训练样本的所述文本信息和至少一种目标语言的所述目标文本信息;
[0014]模型训练模块,用于根据多组平行数据对多语言融合的初始语义表示模型进行训练,以得到语义表示模型,其中,在训练过程中,根据所述初始语义表示模型对每组平行数据中的所述文本信息和至少一种目标语言的所述目标文本信息分别进行处理的处理结果,和每组平行数据中所述文本信息对应的标签信息来更新所述初始语义表示模型;
[0015]处理模块,用于利用所述语义表示模型对待处理文本信息进行语义处理,以得到所述待处理文本信息的语义表示,所述待处理文本信息的语言为源语言或者至少一种目标语言中的任意一个。
[0016]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的多语言融合的语义表示方法中的步骤。
[0017]本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的多语言融合的语义表示方法中的步骤。
[0018]本申请实施例提供的多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备,利用高资源的源语言的多个数据样本中的文本信息对至少一种低资源的目标语言进行扩充,以得到至少一种目标语言的目标文本信息,并根据每个数据样本的文本信息和至少一种目标语言的目标文本信息确定多组平行数据,使得源语言的文本信息和至少一种目标语言的目标文本信息一一对应,丰富了至少一种低资源的目标语言的目标文本信息的同时避免多语言融合的初始语义表示模型偏向于高资源的文本信息,接着利用多组平行数据对初始语义表示模型进行训练,在训练的过程中,根据初始语义表示模型对每组平行数据中的文本信息和至少一种目标语言的目标文本信息分别进行处理的处理结果,和同一个标签信息来更新初始语义表示模型,以使初始语义表示模型学习不同语言间的语义,利用高资源的源语言中学到的知识优化低资源的至少一种目标语言的语义表示,提高低资源的目标语言的语义表示的准确性。
附图说明
[0019]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请实施例提供的应用场景示意图。
[0021]图2为本申请实施例提供的多语言融合的语义表示方法的流程示意图。
[0022]图3为本申请实施例提供的翻译模块的示意图。
[0023]图4为本申请实施例提供的预设数据字典的格式的示意图。
[0024]图5为本申请实施例提供的多语言融合的语义表示模型的的示意图。
[0025]图6为本申请实施例提供的多语言融合的语义表示方法的子流程示意图。
[0026]图7为本申请实施例提供的分词和添加语义标签后的示意图。
[0027]图8为本申请实施例提供的多语言融合的语义表示装置的结构示意图。
[0028]图9为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]本申请实施例提供一种多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备。具体地,本申请实施例的多语言融合的语义表示方法可以由计算机设备执行,本申请实施例中的多语言融合的语义表示装置集成在计算机设备中,其中,可以集成在一个或者多个计算机设备中,如训练多语言融合的语义表示模型的过程在一个计算机设备中执行,使用该语义表示模型时在另一个计算机设备上执行,对应地,训练语义表示模型的过程集成在一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言融合的语义表示方法,其特征在于,包括:获取高资源的源语言所对应的数据集,所述数据集中包括多个数据样本,每个数据样本中包括所述源语言的文本信息和所述文本信息对应的标签信息;利用每个数据样本中的所述文本信息,对至少一种低资源的目标语言进行扩充,以得到至少一种目标语言的目标文本信息;根据每个数据样本中的所述文本信息和所述文本信息扩充得到的所述目标文本信息确定多组平行数据,每组平行数据中包括一个训练样本的所述文本信息和至少一种目标语言的所述目标文本信息;根据多组平行数据对多语言融合的初始语义表示模型进行训练,以得到语义表示模型,其中,在训练过程中,根据所述初始语义表示模型对每组平行数据中的所述文本信息和至少一种目标语言的所述目标文本信息分别进行处理的处理结果,和每组平行数据中所述文本信息对应的标签信息来更新所述初始语义表示模型;利用所述语义表示模型对待处理文本信息进行语义处理,以得到所述待处理文本信息的语义表示,所述待处理文本信息的语言为源语言或者至少一种目标语言中的任意一个。2.根据权利要求1所述的方法,其特征在于,所述根据多组平行数据对多语言融合的初始语义表示模型进行训练,以得到语义表示模型的步骤,包括:将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息,分别输入至多语言融合的初始语义表示模型中进行处理,以得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果;根据所述源文本分类结果、至少一种目标语言的所述目标文本分类结果和每组平行数据中所述文本信息对应的标签信息更新所述初始语义表示模型,以得到语义表示模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述源文本分类结果、至少一种目标语言的所述目标文本分类结果和每组平行数据中所述文本信息对应的标签信息更新所述初始语义表示模型,以得到语义表示模型的步骤,包括:根据所述源文本分类结果和所述标签信息确定源文本分类损失值,根据至少一种目标语言的所述目标文本分类结果和所述标签信息确定至少一种目标语言的目标文本分类损失值;根据源文本分类损失值和至少一种目标语言的目标文本分类损失值确定所述初始语义表示模型的损失值;根据所述损失值更新所述初始语义表示模型,以得到语义表示模型。4.根据权利要求2所述的方法,其特征在于,所述初始语义表示模型中包括语义处理模块和分类模块,所述将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息,分别输入至多语言融合的初始语义表示模型中进行处理,以得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果的步骤,包括:将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息,分别输入至多语言融合的初始语义表示模型的语义处理模块中进行语义处理,以分别得到所述文本信息的源文本语义表示和至少一种目标语言的所述目标文本信息
的目标文本语义表示;将所述源文本语义表示和至少一种目标语言的所述目标文本语义表示,分别输入至所述分类模块中进行分类处理,以分别得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果。5.根据权利要求4所述的方法,其特征在于,所述初始语音表示模型中还包括自注意力机制网络模块,所述方法还包括:将所述源文本语义表示和至少一种目标语言的所述目标文本语义表示,分别输入自注意力机制网络模块进行句子自身特征提取处理,以分别得到融合句子自身特征的源文本语义表示和至少一种目标语言的目标文本语义表示。6.根据权利要求4所述的方法,其特征在于,所述初始语义表示模型中还包括分词和添加语言标签模块,所述将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息,分别输入至多语言融...

【专利技术属性】
技术研发人员:孔聪聪姜磊王静胡加学贺志阳赵景鹤鹿晓亮魏思赵志伟
申请(专利权)人:安徽讯飞医疗股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1