【技术实现步骤摘要】
多语言模型的训练方法和装置、存储介质和电子设备
本专利技术涉及计算机领域,具体而言,涉及一种多语言模型的训练方法和装置、存储介质和电子设备。
技术介绍
随着AI技术的逐渐成熟,智能客服产品逐渐ToB化,统一对外提供服务平台。面对不同国籍、不同语种的客户,机器人需要正确的识别用户的意图。目前,市面上的产品常用的方法是根据每种语言单独训练一个模型,但由于个别语种的语料比较少,会导致分类效果比较差,很难正确理解用户的意图。针对相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题,尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种多语言模型的训练方法和装置、存储介质和电子设备,以至少解决相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。根据本专利技术实施例的一个方面,提供了一种多语言模型的训练方法,包括:将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的 ...
【技术保护点】
1.一种多语言模型的训练方法,其特征在于,包括:/n将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对所述多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;/n使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;/n将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。/n
【技术特征摘要】 【专利技术属性】
1.一种多语言模型的训练方法,其特征在于,包括:
将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对所述多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;
使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;
将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。
2.根据权利要求1所述的方法,其特征在于,在所述将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型之前,所述方法还包括:
对所述多语言语料包进行分词,确定所述多语言语料包中每个词的词频;
将词频大于或等于预设阈值所对应的分词集合,确定为所述多语言共享词汇表。
3.根据权利要求1所述的方法,其特征在于,在所述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整之前,所述方法还包括:
对于所述第一语料集合或者所述第二语料集合中的一个语句,执行以下步骤:
对所述一个语句进行分词,得到所述一个语句对应的句向量,其中,所述句向量由N个分词向量组成,所述N个分词向量中的一个分词向量包括:所述一个分词向量对应的一个分词的词义信息、所述一个分词的位置信息,所述词义信息用于表示所述一个分词本身的含义,所述位置信息用于表示所述一个分词在所述一个语句中所处的位置,所述N为大于0的整数;
将所述句向量输入至所述预训练语言模型中。
4.根据权利要求3所述的方法,其特征在于,所述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对所述预训练语言模型进行调整,得到意图识别模型,包括:
将所述句向量对应的第一编码向量输入至文本分类模型中,其中,所述第一编码向量为对所述句向量进行编码后所得到的向量;
对所述第一编码向量进行分类,得到所述第一编码向量中每个分词向量的第一分类标签;
在所述第一语料集合和所述第二语料集合所包括的语句均已输入至所述预训练语言模型中、且得到所述第一语料集合和所述第二语料集合所包括的语句对应的第二分类标签的情况下,确定所述预训练语言模型已调整完成,得到所述意图识别模型。
5.根据权利要求4所述的方法,其特征在于,在所述将所述句向量对应的第一编码向量输入至文本分类模型中之前,所述方法还包括:
对所述句向量进行编码得到所述第一编码向量。
6.根据权利要求5所述的方法,其特征在于,所述对所述句向量进行编码得到所述第一编码向量,包括:
对所述一个语句进行分词,得到所述一个语句对应的所述句向量X={w1,w2,…,wi},其中,i=1…N,所述wi为所述句向量中的第i个分词,所述w1为CLS,所述w1用于接收所述句向量的隐藏状态;
对所述句向量X中的每个分词进行编码,得到所述句向量X对应的第二编码向量,其中,所述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,所述xiei∈Rd,所述d为向量维度,所述句向量X中的每个分词与所述第二编码向量中的每个向量一一对应;
根据第i-1个分词和第i+1个分词对所述第i个分词对应的所述第二编码向量进行编码,得到所述第一编码向量,其中,所述第i-1个分词为所述第i个分词在所述一个语句中所处位置的前一个分词,所述第i+1个分词为所述第i个分词在所述一个语句中所处位置的后一个分词,所述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,所述句向量X中的每个分词与所述第一编码向量中的每个向量一一对应。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型之后,所述方法还包括:
将目标语句输入至所述目标多语言模型;
对所述目标语句进行分词,得到所述目标语句对应的目标句向量,其中,所述目标句向量包括多个目标分词向量;
将所述目标句向量转化为所述目标句向量对应的第一目标编码向量;
技术研发人员:童丽霞,雷植程,杨念民,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。