当前位置: 首页 > 专利查询>苏州大学专利>正文

基于大小导师知识蒸馏的少样本情感分类方法技术

技术编号:34082642 阅读:11 留言:0更新日期:2022-07-11 19:14
本发明专利技术涉及一种基于大小导师知识蒸馏的少样本情感分类方法,包括收集大量情感分类任务上的未标注样本和有标注样本,使用有标注样本训练大导师模型和小导师模型;全部未标注样本经过小导师模型得到每个样本概率的不确定性,然后根据阈值筛选出样本概率高度不确定的样本再次经过大导师模型;结合大导师模型和小导师模型的概率输出形成软标签来蒸馏学生模型,使用蒸馏后的学生模型进行分类预测。本发明专利技术减少了访问大导师模型的频率,减少了训练学生模型过程中的蒸馏时间,减少资源消耗的同时提升了分类识别的正确率。提升了分类识别的正确率。提升了分类识别的正确率。

【技术实现步骤摘要】
基于大小导师知识蒸馏的少样本情感分类方法


[0001]本专利技术涉及自然语言处理
,尤其是指一种基于大小导师知识蒸馏的少样本情感分类方法。

技术介绍

[0002]情感分类任务旨在对文本表达的情感极性(如:消极和积极)进行自动判断。该任务是自然语言处理研究领域中的研究热点,并在意见挖掘、信息检索和问答系统等众多应用系统中广泛应用,是这些应用系统的基础环节。情感分类只中的少样本情感分类是指在训练分类器时仅有少量的标注样本可以使用。
[0003]在进行少样本情感分类时,人工智能领域通常使用机器学习和深度学习算法从一段文本中提取情感含义,目前最为广泛的人工智能方法是将该问题建模为输入一段文本并输出一个标签的问题。现有技术通常分为以下几个步骤:(1)专业人员标注少量带有不同极性标签的文本,每段文本作为一个样本,获得极性标签平衡的少量标注样本的语料;(2)基于提示的大规模预训练语言模型(比如GPT

3)利用少量的标注样本训练模型,获得分类模型;(3)使用分类模型对某个未知标签的文本进行测试,获得该文本段的极性标签。测试过程中,每次输入分类模型的是单个文本。其中第(2)步的基于提示的大规模预训练语言模型的网络结构如图1所示,图中[CLS] x [SEP]是输入语句,[CLS]标志句首,[SEP]标志句子与句子的分隔,x是原始预训练模型预测句子的分类。图1中“MLM head”是掩码语言模型在基于提示的大规模预训练语言模型中的固定用法。通过“MLM head”得到积极标签“好”,从而得到输入语句“[CLS]我会把他们推荐给每一个人!它 [MASK]。[SEP]”的反馈输出为“我会把他们推荐给每一个人!它好。”。
[0004]少样本情感分类由于训练样本很少,常见的浅层神经网络(例如CNN、LSTM等)和深度预训练语言模型(例如BERT、RoBERTa等)很难对某些文本的语义做出正确判断,分类的识别率不够高。现有技术GPT

3大型模型的参数量达1750亿,通过增加一些输入和相应输出的实例作为上下文,能够在少样本学习任务上表现优异。但是由于参数量过于庞大,调用模型需要耗费昂贵的计算资源,推理速度也很慢,给实际应用带来了阻碍。

技术实现思路

[0005]为此,本专利技术所要解决的技术问题在于克服现有技术中的不足,提供一种基于大小导师知识蒸馏的少样本情感分类方法,可以有效减少访问大导师模型的频率和训练学生模型过程中的蒸馏时间,并在减少资源消耗的同时提升分类识别的正确率。
[0006]为解决上述技术问题,本专利技术提供了一种基于大小导师知识蒸馏的少样本情感分类方法,包括以下步骤:S1:将样本分为有标注样本x
u
和未标注样本x
u

,收集大量情感分类任务上的未标注样本x
u

,建立有标注样本的集合和未标注样本的集合D
u
={x
u

};S2:构建大导师模型和小导师模型,使用有标注样本集合D
l
训练大导师模型得到
训练完成的大导师模型M
L
,使用有标注样本集合D
l
训练小导师模型得到训练完成的小导师模型M
B
;S3:使用训练完成的小导师模型M
B
预测全部未标注样本x
u

得到样本概率,计算每个样本概率的不确定性;S4:将不确定性与预设阈值threshold比较,筛选出样本概率高度不确定的样本x
u

;S5:将样本x
u

输入训练完成的小导师模型M
B
得到小导师模型的软标签P,将样本x
u

输入训练完成的大导师模型M
L
得到大导师模型的软标签P

,结合小导师模型的软标签P和大导师模型的软标签P

得到最终的软标签;S6:构建学生模型,使用所述未标注样本集合D
u
和所述软标签蒸馏学生模型,得到蒸馏完成的学生模型;S7:使用蒸馏完成的学生模型对测试集进行分类预测。
[0007]作为优选的,所述大导师模型和所述小导师模型均为由基于提示的预训练语言模型M组成的教师模型,所述大导师模型的参数量大于所述小导师模型的参数量。
[0008]作为优选的,所述使用有标注样本集合D
l
训练大导师模型得到训练完成的大导师模型M
L
,具体为:S21:训练集D
l
={x
u
}={x,y}中,x表示输入样例,y表示真实标签;对输入样例x添加提示模板转化成完形填空任务形式:P(x)=[CLS] x It is [MASK].[SEP],其中[MASK]为填充词,P(x)是语言模型的输入,It is [MASK].是输入文本添加的提示模板;S22:将L作为分类任务的标签集合,V作为分类任务的标签词集合,构造标签映射函数:;P(x)作为语言模型的输入,通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签上的得分,其中,表示标签l对应的标签词,k为标签词的长度;S23:通过softmax层建立预测[MASK]在不同标签l上的类别概率,通过类别概率得到输入样例x的情感类别;S24:建立大导师模型输出层的损失函数;S25:重复S22~S24,直到大导师模型收敛,结束训练,得到训练完成的大导师模型M
L
;所述使用有标注样本集合D
l
训练小导师模型得到训练完成的小导师模型M
B
,具体为:S26:训练集D
l
={x
u
}={x,y}中,x表示输入样例,y表示真实标签;对输入样例x添加提示模板转化成完形填空任务形式:P(x)=[CLS] x It is [MASK].[SEP],其中[MASK]为填充词;
S27:将L作为分类任务的标签集合,V作为分类任务的标签词集合,构造标签映射函数:;通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签上的得分,其中,表示标签l对应的标签词,k为标签词的长度;S28:通过softmax层建立预测[MASK]在不同标签l上的类别概率,通过类别概率得到输入样例x的情感类别;S29:建立小导师模型的输出层的损失函数;S210:重复S27~S29,直到小导师模型收敛,结束训练,得到训练完成的小导师模型M
B

[0009]作为优选的,所述使用训练完成的小导师模型M
B
预测全部未标注样本x
u

得到样本概率,计算每个样本概率的不确定性,具体为:S31:将全部未标注样本x
u

输入训练完成的小导师模型M
B
,预测得到的概率分布为;S32:计算每个样本概率的不确定性,计算公式为:;其中|L|为分类任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大小导师知识蒸馏的少样本情感分类方法,其特征在于,包括以下步骤:S1:将样本分为有标注样本x
u
和未标注样本x
u

,收集大量情感分类任务上的未标注样本x
u

,建立有标注样本的集合D
l
={x
u
}和未标注样本的集合D
u
={x
u

};S2:构建大导师模型和小导师模型,使用有标注样本集合D
l
训练大导师模型得到训练完成的大导师模型M
L
,使用有标注样本集合D
l
训练小导师模型得到训练完成的小导师模型M
B
;S3:使用训练完成的小导师模型M
B
预测全部未标注样本x
u

得到样本概率,计算每个样本概率的不确定性;S4:将不确定性与预设阈值threshold比较,筛选出样本概率高度不确定的样本x
u

;S5:将样本x
u

输入训练完成的小导师模型M
B
得到小导师模型的软标签P,将样本x
u

输入训练完成的大导师模型M
L
得到大导师模型的软标签P

,结合小导师模型的软标签P和大导师模型的软标签P

得到最终的软标签;S6:构建学生模型,使用所述未标注样本集合D
u
和所述软标签蒸馏学生模型,得到蒸馏完成的学生模型;S7:使用蒸馏完成的学生模型对测试集进行分类预测。2.根据权利要求1所述的基于大小导师知识蒸馏的少样本情感分类方法,其特征在于:所述大导师模型和所述小导师模型均为由基于提示的预训练语言模型M组成的教师模型,所述大导师模型的参数量大于所述小导师模型的参数量。3.根据权利要求2所述的基于大小导师知识蒸馏的少样本情感分类方法,其特征在于:所述使用有标注样本集合D
l
训练大导师模型得到训练完成的大导师模型M
L
,具体为:S21:训练集D
l
={x
u
}={x,y}中,x表示输入样例,y表示真实标签;对输入样例x添加提示模板转化成完形填空任务形式:P(x)=[CLS] x It is [MASK].[SEP],其中[MASK]为填充词,P(x)是语言模型的输入,It is [MASK].是输入文本添加的提示模板;S22:将L作为分类任务的标签集合,V作为分类任务的标签词集合,构造标签映射函数:;通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签上的得分,其中,表示标签l对应的标签词,k为标签词的长度;S23:通过softmax层建立预测[MASK]在不同标签l上的类别概率,通过类别概率得到输入样例x的情感类别;S24:建立大导师模型输出层的损失函数;S25:重复S22~S24,直到大导师模型收敛,结束训练,得到训练完成的大导师模型M
L

所述使用有标注样本集合D
l
训练小导师模型得到训练完成的小导师模型M
B
,具体为:S26:训练集D
l
={x
u
}={x,y}中,x表示输入样例,y表示真实标签;对输入样例x添加提示模板转化成完形填空任务形式:P(x)=[CLS] x It is [MASK].[SEP],其中[MASK]为填充词;S27:将L作为分类任务的标签集合,V作为分类任务的标签词集合,构造标签映射函数:;通过基于提示的预训练语言模型M得到[MASK]对应位置在不同标签上的得分,其中,表示标签l对应的标签词,k为标签词的长度;S28:通过softmax层建立预测[MASK...

【专利技术属性】
技术研发人员:李寿山常晓琴周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1