自适应加权的短文本情感分类方法、电子设备和存储介质技术

技术编号：37411640 阅读：23 留言：0更新日期：2023-04-30 09:36

本发明专利技术公开了一种自适应加权的短文本情感分类方法、电子设备和存储介质，该短文本情感分类方法步骤包括：1)获取短文本集合并进行预处理，使用DeepMoji模型提取特征向量；2)利用短文本情感标签和步骤1中提取到的短文本特征向量预训练分类模型；3)自适应地为不同年龄阶段的样本赋予权重，并基于加权后的损失函数更新分类模型参数；4)重复步骤3，直至样本权重和模型参数收敛为止，并得到更新后的分类模型；4)利用更新后的分类模型对短文本进行情感分类。本发明专利技术能去除情感分类模型对年龄的偏见，从而完成更加精准和公平的情感分类。从而完成更加精准和公平的情感分类。从而完成更加精准和公平的情感分类。

全部详细技术资料下载

【技术实现步骤摘要】
自适应加权的短文本情感分类方法、电子设备和存储介质

[0001]本专利技术属于文本分类和公平表征领域，具体的说是一种自适应加权的短文本情感分类方法、电子设备和存储介质。

技术介绍

[0002]近些年来电子商务技术的进步突飞猛进，电子商务用户的数量也呈几何倍的速度爆炸增长，这其中就产生了海量针对商品的用户评论，因此采用传统的人工阅读评论的方法已经不再合适，通过自然语言处理技术分辨评论者的情绪是未来的发展方向。但是由于人类语言的复杂性，在一个年龄群体中表达喜爱的评价，在另一个年龄群体中可能表示反讽，导致情感分类模型针对不同群体的准确率有差异，对部分群体不利。因此，提升模型的公平性，是自然语言处理任务中的重要问题。

技术实现思路

[0003]本专利技术是为了解决上述现有技术存在的不足之处，提出一种自适应加权的短文本情感分类方法、电子设备和存储介质，以期能在保证情感分类模型准确率的情况下，提升模型的公平性。
[0004]本专利技术为达到上述专利技术目的，采用如下技术方案：
[0005]本专利技术一种自适应加权的短文本情感分类方法的特点在于，包括以下步骤：
[0006]S1、获取评论数据中带有表情包的短文本并作为语料库，根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作，得到相应带标签的短文本集合，记为其中，表示第k个年龄阶评论者的第i条短文本，表示第k个年龄阶评论者的第i条短文本的情感标签，取值为{0,1}；i＝1,2,
…
,N
...

【技术保护点】

【技术特征摘要】
1.一种自适应加权的短文本情感分类方法，其特征在于，包括以下步骤：S1、获取评论数据中带有表情包的短文本并作为语料库，根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作，得到相应带标签的短文本集合，记为其中，表示第k个年龄阶评论者的第i条短文本，表示第k个年龄阶评论者的第i条短文本的情感标签，取值为{0,1}；i＝1,2,
…
,N
k
，N
k
表示第k个年龄段评论者的短文本总数；k＝1,2,
…
,K，K表示年龄阶段总数；采用训练好的特征提取模型DeepMoji对短文本集合提取文本特征，得到短文本特征集合其中，表示第k个年龄段评论者的第i条短文本的特征向量；S2、构建一个由全连接网络组成的分类模型，并将短文本特征集合输入所述分类模型中进行处理，输出第k个年龄段评论者的第i条短文本特征的情感预测值S3、利用式(1)构建分类模型的交叉熵损失L：S4、利用梯度下降法对所述分类模型进行预训练，并计算所述交叉熵损失L以更新模型参数，直到交叉熵损失L收敛为止，从而得到预训练后的分类模型；S5、对预训练后的分类模型的更新：S5.1、定义当前迭代次数为t，并初始化t＝1；将预训练后的分类模型作为第t
‑
1次迭代的分类模型；S5.2、利用式(2)计算第t次迭代中第k个年龄段评论者的第i条短文本的权重的权重式(2)中，α是一个取值...

【专利技术属性】
技术研发人员：胡郅昊，田新梅，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人