本发明专利技术公开了一种自适应加权的短文本情感分类方法、电子设备和存储介质,该短文本情感分类方法步骤包括:1)获取短文本集合并进行预处理,使用DeepMoji模型提取特征向量;2)利用短文本情感标签和步骤1中提取到的短文本特征向量预训练分类模型;3)自适应地为不同年龄阶段的样本赋予权重,并基于加权后的损失函数更新分类模型参数;4)重复步骤3,直至样本权重和模型参数收敛为止,并得到更新后的分类模型;4)利用更新后的分类模型对短文本进行情感分类。本发明专利技术能去除情感分类模型对年龄的偏见,从而完成更加精准和公平的情感分类。从而完成更加精准和公平的情感分类。从而完成更加精准和公平的情感分类。
【技术实现步骤摘要】
自适应加权的短文本情感分类方法、电子设备和存储介质
[0001]本专利技术属于文本分类和公平表征领域,具体的说是一种自适应加权的短文本情感分类方法、电子设备和存储介质。
技术介绍
[0002]近些年来电子商务技术的进步突飞猛进,电子商务用户的数量也呈几何倍的速度爆炸增长,这其中就产生了海量针对商品的用户评论,因此采用传统的人工阅读评论的方法已经不再合适,通过自然语言处理技术分辨评论者的情绪是未来的发展方向。但是由于人类语言的复杂性,在一个年龄群体中表达喜爱的评价,在另一个年龄群体中可能表示反讽,导致情感分类模型针对不同群体的准确率有差异,对部分群体不利。因此,提升模型的公平性,是自然语言处理任务中的重要问题。
技术实现思路
[0003]本专利技术是为了解决上述现有技术存在的不足之处,提出一种自适应加权的短文本情感分类方法、电子设备和存储介质,以期能在保证情感分类模型准确率的情况下,提升模型的公平性。
[0004]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0005]本专利技术一种自适应加权的短文本情感分类方法的特点在于,包括以下步骤:
[0006]S1、获取评论数据中带有表情包的短文本并作为语料库,根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作,得到相应带标签的短文本集合,记为其中,表示第k个年龄阶评论者的第i条短文本,表示第k个年龄阶评论者的第i条短文本的情感标签,取值为{0,1};i=1,2,
…
,N
k
,N
k
表示第k个年龄段评论者的短文本总数;k=1,2,
…
,K,K表示年龄阶段总数;
[0007]采用训练好的特征提取模型DeepMoji对短文本集合提取文本特征,得到短文本特征集合其中,表示第k个年龄段评论者的第i条短文本的特征向量;
[0008]S2、构建一个由全连接网络组成的分类模型,并将短文本特征集合输入所述分类模型中进行处理,输出第k个年龄段评论者的第i条短文本特征的情感预测值
[0009]S3、利用式(1)构建分类模型的交叉熵损失L:
[0010][0011]S4、利用梯度下降法对所述分类模型进行预训练,并计算所述交叉熵损失L以更新模型参数,直到交叉熵损失L收敛为止,从而得到预训练后的分类模型;
[0012]S5、对预训练后的分类模型的更新:
[0013]S5.1、定义当前迭代次数为t,并初始化t=1;将预训练后的分类模型作为第t
‑
1次迭代的分类模型;
[0014]S5.2、利用式(2)计算第t次迭代中第k个年龄段评论者的第i条短文本的权重
[0015][0016]式(2)中,α是一个取值范围在[0,100]之间的参数,η是一个取值范围在[0,3]之间的参数,exp是自然底数,表示第t
‑
1次迭代中第k个年龄段评论者的第i条短文本的权重,当t=1时,令重,当t=1时,令表示第t次迭代中分类模型对第k个年龄段评论者的第i条短文本预测的情感标签,取值范围为[0,1],当t=1时,令第t
‑
1次迭代中分类模型对第i条短文本预测的情感标签第t
‑
2次迭代中分类模型对第i条短文本预测的情感标签
[0017]利用式(3)构建第t次迭代的加权损失函数L
t
:
[0018][0019]S5.2、利用梯度下降法对第t次迭代的分类模型进行训练,并最小化加权损失函数L
t
以更新第t次迭代的分类模型的参数,从而得到第t+1次迭代的分类模型;
[0020]S5.3、将t+1赋值给t后,返回步骤S5.1顺序执行,直至t达到最大迭代次数t
max
为止,从而得到更新后的分类模型;
[0021]S6、将任一短文本特征向量输入更新后的分类模型中,并输出相应短文本预测的情感类别。
[0022]本专利技术一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行权利要求1所述短文本分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
[0023]本专利技术一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行权利要求1所述短文本分类方法的步骤。
[0024]与现有技术相比,本专利技术的有益效果在于:
[0025]1、本专利技术能够随模型参数更新自适应地计算出每个样本的最优权重,相比于直接赋权的方法得到的权重更加精准,从而可以大幅度提升情感分类模型针对不同群体的公平性。
[0026]2、本专利技术在样本级别对在决策边界附近的样本进行了细粒度的加权,给在决策边界附近的样本赋予了更高的权重,可以有效解决测试集的分布偏移问题,提升了情感分类模型的泛化性。
[0027]3、本专利技术利用DeepMoji模型提取文本特征,更加真实全面的反应用户在文本中表达的情感偏好,提升了情感分类模型对短文本情感的分类准确率。
[0028]4、本专利技术基于深层全连接神经网络模型,并根据短文本的评论者所在的年龄阶段和模型对短文本输出值到决策边界的距离为每条短文本计算了权重,设计了加权的损失函数,采用随机梯度下降不断优化模型参数,从而能够提升情感分类模型的公平性。
附图说明
[0029]图1为本专利技术自适应加权的短文本情感方法的流程图。
具体实施方式
[0030]本实施例中,一种自适应加权的短文本情感分类方法,如图1所示,包括以下步骤:1)获取短文本集合并进行预处理,并使用特征提取模型DeepMoji模型提取特征向量;2)利用短文本情感标签和步骤1中提取到的短文本特征向量预训练分类模型;3)自适应地为不同年龄阶段的样本赋予权重,并基于加权后的损失函数更新分类模型参数;4)重复步骤3,直至样本权重和模型参数收敛为止,并得到更新后的分类模型;4)利用更新后的分类模型对短文本进行情感分类。具体的说,该自适应加权的短文本情感分类方法,包括以下步骤:
[0031]S1、获取评论数据中带有表情包的短文本并作为语料库,因为评论数量庞大且人工标注成本过高,因为表情包可以比较准确的反映评论者的情绪,所以本方法采用评论中带有表情包的文本作为训练数据,并根据文本中表情包的种类作为文本的情感标签,根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作,得到相应带标签的短文本集合,记为其中,表示第k个年龄阶评论者的第i条短文本,表示第k个年龄阶评论者的第i条短文本的情感标签,取值为{0,1};i=1,2,
…
,N
k
,N
k
表示第k个年龄段评论者的短文本总数;k=1,2,
…
,K,K表示年龄阶段总数,取值为5,意味着把用户群体分为5个年龄阶段,分别是30岁以下、30~39岁、40~49岁、50~59岁和60岁及以上;
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种自适应加权的短文本情感分类方法,其特征在于,包括以下步骤:S1、获取评论数据中带有表情包的短文本并作为语料库,根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作,得到相应带标签的短文本集合,记为其中,表示第k个年龄阶评论者的第i条短文本,表示第k个年龄阶评论者的第i条短文本的情感标签,取值为{0,1};i=1,2,
…
,N
k
,N
k
表示第k个年龄段评论者的短文本总数;k=1,2,
…
,K,K表示年龄阶段总数;采用训练好的特征提取模型DeepMoji对短文本集合提取文本特征,得到短文本特征集合其中,表示第k个年龄段评论者的第i条短文本的特征向量;S2、构建一个由全连接网络组成的分类模型,并将短文本特征集合输入所述分类模型中进行处理,输出第k个年龄段评论者的第i条短文本特征的情感预测值S3、利用式(1)构建分类模型的交叉熵损失L:S4、利用梯度下降法对所述分类模型进行预训练,并计算所述交叉熵损失L以更新模型参数,直到交叉熵损失L收敛为止,从而得到预训练后的分类模型;S5、对预训练后的分类模型的更新:S5.1、定义当前迭代次数为t,并初始化t=1;将预训练后的分类模型作为第t
‑
1次迭代的分类模型;S5.2、利用式(2)计算第t次迭代中第k个年龄段评论者的第i条短文本的权重的权重式(2)中,α是一个取值...
【专利技术属性】
技术研发人员:胡郅昊,田新梅,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。