多语言融合的语义表示方法、装置、存储介质及设备制造方法及图纸

技术编号：37078600 阅读：25 留言：0更新日期：2023-03-29 19:54

本申请实施例公开了一种多语言融合的语义表示方法、装置、存储介质及设备。该方法包括：利用高资源的源语言的多个数据样本中的文本信息对至少一种低资源的目标语言进行扩充，以得到至少一种目标语言的目标文本信息，并根据每个数据样本的文本信息和至少一种目标语言的目标文本信息确定多组平行数据，利用多组平行数据对初始语义表示模型进行训练，在训练的过程中，根据初始语义表示模型对每组平行数据中的文本信息和至少一种目标语言的目标文本信息分别进行处理的处理结果，和同一个标签信息来更新初始语义表示模型，利用高资源的源语言中学到的知识优化低资源的至少一种目标语言的语义表示，提高低资源的目标语言的语义表示的准确性。表示的准确性。表示的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
多语言融合的语义表示方法、装置、存储介质及设备

[0001]本申请涉及人工智能
，具体涉及一种多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]近年来，随着互联网的发展与进步，民族语言越来越多的出现在互联网中，针对民族语言的语义理解逐渐成为关注的重点。深度学习在许多自然语言处理任务中取得了令人惊叹的成就，特别是随着预训练语言模型的出现，让机器理解人类的语言有了突破性进展。但是，少数民族语言如藏语、维语本身资源匮乏，且缺少大规模语料库，虽然也有诸如多语言预训练语言模型对解决低资源语言问题做出的努力，但仍然没能进行很好的覆盖。因此，对于藏语、维语等少数民族语言的语义表示以及理解的问题仍然难以解决。

技术实现思路

[0003]本申请实施例提供一种多语言融合的语义表示方法、装置、计算机可读存储介质及计算机设备，可以利用高资源的源语言的文本信息的知识来优化至少一种低资源的目标语言的语义表示，提高低资源的目标语言的语义表示的准确性。
[0004]本申请实施例提供了一种多语言融合的语义表示方法，包括：
[0005]获取高资源的源语言所对应的数据集，所述数据集中包括多个数据样本，每个数据样本中包括所述源语言的文本信息和所述文本信息对应的标签信息；
[0006]利用每个数据样本中的所述文本信息，对至少一种低资源的目标语言进行扩充，以得到至少一种目标语言的目标文本信息；
[0007]根据每个数据样本中的所述文本信息和所述文本信息扩充得到的所述目标...

【技术保护点】

【技术特征摘要】
1.一种多语言融合的语义表示方法，其特征在于，包括：获取高资源的源语言所对应的数据集，所述数据集中包括多个数据样本，每个数据样本中包括所述源语言的文本信息和所述文本信息对应的标签信息；利用每个数据样本中的所述文本信息，对至少一种低资源的目标语言进行扩充，以得到至少一种目标语言的目标文本信息；根据每个数据样本中的所述文本信息和所述文本信息扩充得到的所述目标文本信息确定多组平行数据，每组平行数据中包括一个训练样本的所述文本信息和至少一种目标语言的所述目标文本信息；根据多组平行数据对多语言融合的初始语义表示模型进行训练，以得到语义表示模型，其中，在训练过程中，根据所述初始语义表示模型对每组平行数据中的所述文本信息和至少一种目标语言的所述目标文本信息分别进行处理的处理结果，和每组平行数据中所述文本信息对应的标签信息来更新所述初始语义表示模型；利用所述语义表示模型对待处理文本信息进行语义处理，以得到所述待处理文本信息的语义表示，所述待处理文本信息的语言为源语言或者至少一种目标语言中的任意一个。2.根据权利要求1所述的方法，其特征在于，所述根据多组平行数据对多语言融合的初始语义表示模型进行训练，以得到语义表示模型的步骤，包括：将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息，分别输入至多语言融合的初始语义表示模型中进行处理，以得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果；根据所述源文本分类结果、至少一种目标语言的所述目标文本分类结果和每组平行数据中所述文本信息对应的标签信息更新所述初始语义表示模型，以得到语义表示模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述源文本分类结果、至少一种目标语言的所述目标文本分类结果和每组平行数据中所述文本信息对应的标签信息更新所述初始语义表示模型，以得到语义表示模型的步骤，包括：根据所述源文本分类结果和所述标签信息确定源文本分类损失值，根据至少一种目标语言的所述目标文本分类结果和所述标签信息确定至少一种目标语言的目标文本分类损失值；根据源文本分类损失值和至少一种目标语言的目标文本分类损失值确定所述初始语义表示模型的损失值；根据所述损失值更新所述初始语义表示模型，以得到语义表示模型。4.根据权利要求2所述的方法，其特征在于，所述初始语义表示模型中包括语义处理模块和分类模块，所述将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息，分别输入至多语言融合的初始语义表示模型中进行处理，以得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果的步骤，包括：将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息，分别输入至多语言融合的初始语义表示模型的语义处理模块中进行语义处理，以分别得到所述文本信息的源文本语义表示和至少一种目标语言的所述目标文本信息
的目标文本语义表示；将所述源文本语义表示和至少一种目标语言的所述目标文本语义表示，分别输入至所述分类模块中进行分类处理，以分别得到每组平行数据中所述文本信息的源文本分类结果和至少一种目标语言的所述目标文本信息的目标文本分类结果。5.根据权利要求4所述的方法，其特征在于，所述初始语音表示模型中还包括自注意力机制网络模块，所述方法还包括：将所述源文本语义表示和至少一种目标语言的所述目标文本语义表示，分别输入自注意力机制网络模块进行句子自身特征提取处理，以分别得到融合句子自身特征的源文本语义表示和至少一种目标语言的目标文本语义表示。6.根据权利要求4所述的方法，其特征在于，所述初始语义表示模型中还包括分词和添加语言标签模块，所述将多组平行数据中的每组平行数据对应的所述文本信息和至少一种目标语言的所述目标文本信息，分别输入至多语言融...

【专利技术属性】
技术研发人员：孔聪聪，姜磊，王静，胡加学，贺志阳，赵景鹤，鹿晓亮，魏思，赵志伟，
申请(专利权)人：安徽讯飞医疗股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人