模型训练方法、文本处理方法和装置、电子设备、介质制造方法及图纸

技术编号:29675137 阅读:22 留言:0更新日期:2021-08-13 21:57
本申请提供了一种模型训练方法、文本处理方法和装置、电子设备、介质,模型训练方法包括:将第(a‑1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;根据第a轮迭代对应的第一训练样本和第a轮迭代对应的老师模型对第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,第一概率分布向量为将第a轮迭代对应的第一训练样本输入到第a轮迭代对应的基础模型中得到的概率分布向量,第二概率分布向量为将第a轮迭代对应的第一训练样本输入到第a轮迭代对应的老师模型中得到的概率分布向量;在满足收敛条件的情况下,输出对应的学生模型。

【技术实现步骤摘要】
模型训练方法、文本处理方法和装置、电子设备、介质
本申请实施例涉及数据处理
,特别涉及模型训练方法、文本处理方法和装置、电子设备、介质。
技术介绍
深度学习模型极大的推动了各项自然语言处理任务的发展,训练这些模型往往需要大量的标注样本。然而标注样本往往只存在于英语、汉语等使用人口众多的语言,世界上绝大多数语言往往只有少量甚至没有标注样本。跨语言迁移期望通过在语言之间迁移任务知识来解决这个问题,即借助源语言的带标注任务数据来让模型学会目标语言的对应任务。当前主流的跨语言迁移方案是使用源语言带标注样本微调多语言预训练语言模型(M-PLM,MultilingualPretrainingLanguageModel)。然而实际应用场景中目标语言无标注样本易于收集且可以为模型提供目标分布的信息,因此,在微调M-PLM的过程中引入目标语言样本信息对跨语言文本分类和跨语言命名实体识别具有重要意义。近期一些工作者对此进行了探究:Keung等人采用语言对抗训练来促使模型产生更加语言独立的特征;Zhang等人将跨语言迁移看成领域适应问题,并使用无监督领域适应方法来降低领域之间的差异;Wu等人通过目标语言样本上的知识蒸馏来提升单源和多源跨语言命名实体识别的性能,该方法可以看成是使用软目标的单轮自训练;Dong等人使用带有样本选择机制的自训练来提升跨语言文本分类的性能。其中,Keung等人和Zhang等人提出的基于对抗训练的方法在利用目标语言无标注样本上不如自训练简单直接,性能也弱于自训练。而目前自训练过程中老师模型在无标注样本上的预测准确度较低,从而误导学生模型的训练,也就是说,目前的跨语言模型训练方法性能较差。
技术实现思路
本申请实施例提供一种模型训练方法、文本处理方法和装置、电子设备、介质。第一方面,本申请实施例提供一种模型训练方法,包括:生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。第二方面,本申请实施例提出一种文本处理方法,包括:将文本输入到上述任意一种模型训练方法训练得到的学生模型中得到输出结果。第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器;存储器,存储器上存储有至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,实现上述任意一种模型训练方法,或上述任意一种文本处理方法。第四方面,本申请实施例提供一种介质,介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种模型训练方法,或上述任意一种文本处理方法。第五方面,本申请实施例提供一种模型训练装置,包括:基础模型生成模块,用于生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;老师模型确定模块,用于在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;训练样本确定模块,用于确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;模型训练模块,用于根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;模型输出模块,用于在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。第六方面,本申请实施例提供一种文本处理装置,包括:处理模块,用于将文本输入到上述任意一种模型训练方法训练得到的学生模型中得到输出结果。本申请实施例提供的模型训练方法,采用软目标,也就是概率分布向量来作为学生模型的学习目标,且使用均方误差(MSE,MeanSquareError)来作为损失函数进行模型训练,而不是采用硬目标,也就是0/1标签作为学生模型得到学习目标,在预测错误的情况下,软目标比硬目标包含有更少的错误信号,也就是降低了老师模型对未带标签的第二样本集合中的样本的错误预测而对学生模型造成的误导,从而提高了模型训练的性能。附图说明图1为本申请一个实施例提供的模型训练方法的流程图;图2为本申请实施例提供的基础模型的示意图一;图3为本申请实施例提供的基础模型的示意图二;图4为本申请实施例提供的基础模型的示意图三;图5为本申请另一个实施例提供的模型训练装置的组成框图。具体实施方式为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图对本申请提供的模型训练方法、文本处理方法和装置、电子设备、介质进行详细描述。在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本申请透彻和完整,并将使本领域技术人员充分理解本申请的范围。在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。如本文所使用的,术语“和/或”包括至少一个相关列举条目的任何和所有组合。本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加至少一个其它特征、整体、步骤、操作、元件、组件和/或其群组。除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,包括:/n生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;/n在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;/n确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;/n根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;/n在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。/n

【技术特征摘要】
1.一种模型训练方法,包括:
生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;
在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;
确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;
根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;
在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。


2.根据权利要求1所述的模型训练方法,其中,所述确定第a轮迭代对应的第一训练样本包括:
将第(a-1)轮迭代对应的第二训练样本输入到所述第a轮迭代对应的老师模型中得到第三概率分布向量;其中,所述第(a-1)轮迭代对应的第二训练样本包括:所述第二样本集合中不属于第(a-1)轮迭代对应的第一训练样本的样本;
根据所述第三概率分布向量确定所述第(a-1)轮迭代对应的第二训练样本的置信度;
确定所述第a轮迭代对应的第一训练样本包括:所述第(a-1)轮迭代对应的第二训练样本中置信度最大的K1个样本,以及所述第(a-1)轮迭代对应的第一训练样本;其中,K1为大于或等于1的整数。


3.根据权利要求1所述的模型训练方法,其中,所述确定第a轮迭代对应的第一训练样本包括:
将第(a-1)轮迭代对应的第二训练样本输入到所述第a轮迭代对应的老师模型中得到第三概率分布向量;其中,所述第(a-1)轮迭代对应的第二训练样本包括:所述第二样本集合中不属于第(a-1)轮迭代对应的第一训练样本的样本;
根据所述第三概率分布向量确定所述第(a-1)轮迭代对应的第二训练样本的置信度;
确定所述第a轮迭代对应的第一训练样本包括:所述第(a-1)轮迭代对应的第二训练样本中属于同一标签类别的样本中置信度最大的K2个样本,以及所述第(a-1)轮迭代对应的第一训练样本;其中,K2为大于或等于1的整数。


4.根据权利要求2或3所述的模型训练方法,其中,所述根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型包括:
将所述第a轮迭代对应的第一训练样本中属于所述第二样本集合中的样本划分为B个集合;其中,B为大于或等于1的整数,B个集合按照对应的置信度区间从大到小的顺序排列;
确定第e次迭代对应的第三训练样本包括:所述第(a-1)轮迭代对应的第一训练样本中属于所述第一样本集合中的样本、所述B个集合中的第1到f个集合中的样本;其中,e为大于或等于1,且小于或等于E的整数,f为e和B中的最小值;
根据所述第e次迭代对应的第三训练样本和第e次迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第e次迭代对应的学生模型;
在e等于E的情况下,输出所述第e次迭代对应的学生模型作为所述第a轮迭代对应的学生模型。


5.根据权利要求1所述的模型训练方法,其中,所述...

【专利技术属性】
技术研发人员:黄书剑浦通陈家骏张洋铭屠要峰高洪黄震江周祥生
申请(专利权)人:中兴通讯股份有限公司南京大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1