【技术实现步骤摘要】
模型训练方法、文本处理方法和装置、电子设备、介质
本申请实施例涉及数据处理
,特别涉及模型训练方法、文本处理方法和装置、电子设备、介质。
技术介绍
深度学习模型极大的推动了各项自然语言处理任务的发展,训练这些模型往往需要大量的标注样本。然而标注样本往往只存在于英语、汉语等使用人口众多的语言,世界上绝大多数语言往往只有少量甚至没有标注样本。跨语言迁移期望通过在语言之间迁移任务知识来解决这个问题,即借助源语言的带标注任务数据来让模型学会目标语言的对应任务。当前主流的跨语言迁移方案是使用源语言带标注样本微调多语言预训练语言模型(M-PLM,MultilingualPretrainingLanguageModel)。然而实际应用场景中目标语言无标注样本易于收集且可以为模型提供目标分布的信息,因此,在微调M-PLM的过程中引入目标语言样本信息对跨语言文本分类和跨语言命名实体识别具有重要意义。近期一些工作者对此进行了探究:Keung等人采用语言对抗训练来促使模型产生更加语言独立的特征;Zhang等人将跨语言迁移看成领域适应问题,并使用无监督领域适应方法来降低领域之间的差异;Wu等人通过目标语言样本上的知识蒸馏来提升单源和多源跨语言命名实体识别的性能,该方法可以看成是使用软目标的单轮自训练;Dong等人使用带有样本选择机制的自训练来提升跨语言文本分类的性能。其中,Keung等人和Zhang等人提出的基于对抗训练的方法在利用目标语言无标注样本上不如自训练简单直接,性能也弱 ...
【技术保护点】
1.一种模型训练方法,包括:/n生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;/n在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;/n确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;/n根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;/n在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。/n
【技术特征摘要】
1.一种模型训练方法,包括:
生成第a轮迭代对应的基础模型;其中,a为大于或等于0的整数;
在a大于或等于1的情况下,将第(a-1)轮迭代对应的学生模型作为第a轮迭代对应的老师模型;
确定第a轮迭代对应的第一训练样本;其中,所述第a轮迭代对应的第一训练样本包括:带标签的第一样本集合中的样本和未带标签的第二样本集合中的样本;
根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型;其中,在训练过程中根据第一概率分布向量和第二概率分布向量确定损失函数,所述第一概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的基础模型中得到的概率分布向量,所述第二概率分布向量为将所述第a轮迭代对应的第一训练样本输入到所述第a轮迭代对应的老师模型中得到的概率分布向量;
在满足收敛条件的情况下,输出所述第a轮迭代对应的学生模型。
2.根据权利要求1所述的模型训练方法,其中,所述确定第a轮迭代对应的第一训练样本包括:
将第(a-1)轮迭代对应的第二训练样本输入到所述第a轮迭代对应的老师模型中得到第三概率分布向量;其中,所述第(a-1)轮迭代对应的第二训练样本包括:所述第二样本集合中不属于第(a-1)轮迭代对应的第一训练样本的样本;
根据所述第三概率分布向量确定所述第(a-1)轮迭代对应的第二训练样本的置信度;
确定所述第a轮迭代对应的第一训练样本包括:所述第(a-1)轮迭代对应的第二训练样本中置信度最大的K1个样本,以及所述第(a-1)轮迭代对应的第一训练样本;其中,K1为大于或等于1的整数。
3.根据权利要求1所述的模型训练方法,其中,所述确定第a轮迭代对应的第一训练样本包括:
将第(a-1)轮迭代对应的第二训练样本输入到所述第a轮迭代对应的老师模型中得到第三概率分布向量;其中,所述第(a-1)轮迭代对应的第二训练样本包括:所述第二样本集合中不属于第(a-1)轮迭代对应的第一训练样本的样本;
根据所述第三概率分布向量确定所述第(a-1)轮迭代对应的第二训练样本的置信度;
确定所述第a轮迭代对应的第一训练样本包括:所述第(a-1)轮迭代对应的第二训练样本中属于同一标签类别的样本中置信度最大的K2个样本,以及所述第(a-1)轮迭代对应的第一训练样本;其中,K2为大于或等于1的整数。
4.根据权利要求2或3所述的模型训练方法,其中,所述根据所述第a轮迭代对应的第一训练样本和所述第a轮迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第a轮迭代对应的学生模型包括:
将所述第a轮迭代对应的第一训练样本中属于所述第二样本集合中的样本划分为B个集合;其中,B为大于或等于1的整数,B个集合按照对应的置信度区间从大到小的顺序排列;
确定第e次迭代对应的第三训练样本包括:所述第(a-1)轮迭代对应的第一训练样本中属于所述第一样本集合中的样本、所述B个集合中的第1到f个集合中的样本;其中,e为大于或等于1,且小于或等于E的整数,f为e和B中的最小值;
根据所述第e次迭代对应的第三训练样本和第e次迭代对应的老师模型对所述第a轮迭代对应的基础模型进行训练得到第e次迭代对应的学生模型;
在e等于E的情况下,输出所述第e次迭代对应的学生模型作为所述第a轮迭代对应的学生模型。
5.根据权利要求1所述的模型训练方法,其中,所述...
【专利技术属性】
技术研发人员:黄书剑,浦通,陈家骏,张洋铭,屠要峰,高洪,黄震江,周祥生,
申请(专利权)人:中兴通讯股份有限公司,南京大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。