多语言模型的训练方法和装置、存储介质和电子设备制造方法及图纸

技术编号:28321619 阅读:15 留言:0更新日期:2021-05-04 13:02
本发明专利技术公开了一种多语言模型的训练方法和装置、存储介质和电子设备。该方法包括:将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对待训练语言模型进行训练,得到预训练语言模型,多语言语料包为包括多种语言的语料包,多语言共享词汇表中存储了对多语言语料包进行分词得到的分词集合;使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,其中,意图识别模型用于识别第一语言和第二语言的语句所表示的语义和语义之间的关系;将多种语言的语句输入意图识别模型,得到目标多语言模型,目标多语言模型用于识别多种语言的语句所表示的语义和语义之间的关系。

【技术实现步骤摘要】
多语言模型的训练方法和装置、存储介质和电子设备
本专利技术涉及计算机领域,具体而言,涉及一种多语言模型的训练方法和装置、存储介质和电子设备。
技术介绍
随着AI技术的逐渐成熟,智能客服产品逐渐ToB化,统一对外提供服务平台。面对不同国籍、不同语种的客户,机器人需要正确的识别用户的意图。目前,市面上的产品常用的方法是根据每种语言单独训练一个模型,但由于个别语种的语料比较少,会导致分类效果比较差,很难正确理解用户的意图。针对相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题,尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种多语言模型的训练方法和装置、存储介质和电子设备,以至少解决相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。根据本专利技术实施例的一个方面,提供了一种多语言模型的训练方法,包括:将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。根据本专利技术实施例的另一方面,还提供了一种多语言模型的训练装置,包括:第一输入单元,用于将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;第一处理单元,用于使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;第二处理单元,用于将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述多语言模型的训练方法。根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述多语言模型的训练方法。通过本专利技术,对多语言语料包进行分词得到多语言共享词汇表,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,然后使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,得到的该意图识别模型能够识别出第一语言和第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言,最后,将多种语言的语句输入到意图识别模型中,使得意图识别模型能够将对第一语言和第二语言进行意图识别的能力泛化到目标多语言模型上,从而得到目标多语言模型,得到的目标多语言模型能够识别出多种语言的语句所表示的语义和语义之间的关系。通过上述方式,通过带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,使得该意图识别模型具备识别第一语言和上述第二语言的语句所表示的语义和语义之间的关系的能力,进而将多种语言的语句输入上述意图识别模型,得到目标多语言模型,使得目标多语言模型在没有分词标注的多种语言的语料集合训练下,也能够具备识别出多种语言的语句所表示的语义和语义之间的关系的能力,解决了相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种多语言模型的训练方法的应用环境的示意图;图2是根据本专利技术实施例的一种可选的多语言模型的训练方法的流程示意图;图3是根据本专利技术实施例的另一种多语言模型的训练方法的应用环境的示意图;图4是根据本专利技术实施例的另一种可选的多语言模型的训练方法的流程示意图;图5是根据本专利技术实施例的又一种可选的多语言模型的训练方法的流程示意图;图6是根据本专利技术实施例的一种可选的意图识别模型的结构示意图;图7是根据本专利技术实施例的一种可选的多语言模型的训练装置的结构示意图;图8是根据本专利技术实施例的一种可选的电子设备的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例中涉及到的技术术语包括:1、迁移学习:TransferLearning是机器学习的分支,就是把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。2、基于Transformer模型的双向编码表示(BidirectionalEncoderRepresentationsforTransformer,简称Bert)。3、TextCNN:是一种文本分类模型,将卷积神经网络CNN应用到本文档来自技高网
...

【技术保护点】
1.一种多语言模型的训练方法,其特征在于,包括:/n将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对所述多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;/n使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;/n将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。/n

【技术特征摘要】
1.一种多语言模型的训练方法,其特征在于,包括:
将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对所述多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;
使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;
将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。


2.根据权利要求1所述的方法,其特征在于,在所述将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型之前,所述方法还包括:
对所述多语言语料包进行分词,确定所述多语言语料包中每个词的词频;
将词频大于或等于预设阈值所对应的分词集合,确定为所述多语言共享词汇表。


3.根据权利要求1所述的方法,其特征在于,在所述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整之前,所述方法还包括:
对于所述第一语料集合或者所述第二语料集合中的一个语句,执行以下步骤:
对所述一个语句进行分词,得到所述一个语句对应的句向量,其中,所述句向量由N个分词向量组成,所述N个分词向量中的一个分词向量包括:所述一个分词向量对应的一个分词的词义信息、所述一个分词的位置信息,所述词义信息用于表示所述一个分词本身的含义,所述位置信息用于表示所述一个分词在所述一个语句中所处的位置,所述N为大于0的整数;
将所述句向量输入至所述预训练语言模型中。


4.根据权利要求3所述的方法,其特征在于,所述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,包括:
将所述句向量对应的第一编码向量输入至文本分类模型中,其中,所述第一编码向量为对所述句向量进行编码后所得到的向量;
对所述第一编码向量进行分类,得到所述第一编码向量中每个分词向量的第一分类标签;
在所述第一语料集合和所述第二语料集合所包括的语句均已输入至所述预训练语言模型中、且得到所述第一语料集合和所述第二语料集合所包括的语句对应的第二分类标签的情况下,确定所述预训练语言模型已调整完成,得到所述意图识别模型。


5.根据权利要求4所述的方法,其特征在于,在所述将所述句向量对应的第一编码向量输入至文本分类模型中之前,所述方法还包括:
对所述句向量进行编码得到所述第一编码向量。


6.根据权利要求5所述的方法,其特征在于,所述对所述句向量进行编码得到所述第一编码向量,包括:
对所述一个语句进行分词,得到所述一个语句对应的所述句向量X={w1,w2,…,wi},其中,i=1…N,所述wi为所述句向量中的第i个分词,所述w1为CLS,所述w1用于接收所述句向量的隐藏状态;
对所述句向量X中的每个分词进行编码,得到所述句向量X对应的第二编码向量,其中,所述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,所述xiei∈Rd,所述d为向量维度,所述句向量X中的每个分词与所述第二编码向量中的每个向量一一对应;
根据第i-1个分词和第i+1个分词对所述第i个分词对应的所述第二编码向量进行编码,得到所述第一编码向量,其中,所述第i-1个分词为所述第i个分词在所述一个语句中所处位置的前一个分词,所述第i+1个分词为所述第i个分词在所述一个语句中所处位置的后一个分词,所述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,所述句向量X中的每个分词与所述第一编码向量中的每个向量一一对应。


7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型之后,所述方法还包括:
将目标语句输入至所述目标多语言模型;
对所述目标语句进行分词,得到所述目标语句对应的目标句向量,其中,所述目标句向量包括多个目标分词向量;
将所述目标句向量转化为所述目标句向量对应的第一目标编码向量;

【专利技术属性】
技术研发人员:童丽霞雷植程杨念民
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1