一种融合表情符号的社交文本情感分析方法及装置制造方法及图纸

技术编号：35284921 阅读：29 留言：0更新日期：2022-10-22 12:28

本发明专利技术公开了一种融合表情符号的社交文本情感分析方法及装置，所述方法包括：将无标注含表情文本数据和有标注社交文本数据做预处理，获取预训练文本数据，并将其中的表情符号提取作为预训练标签；搭建神经网络模型对预训练文本数据进行预训练，得到以表情符号为预测标签的预训练模型；将预处理的有标注社交文本数据输入至预训练模型，通过链式解冻方法更新预训练模型的参数，训练得到社交文本情感分类器；将需要进行情感分类的社交文本输入至社交文本情感分类器，得到预测情感类别；本发明专利技术的优点在于：克服了社交文本与表情符号分割处理导致情感信息遗失的局限性，提升对社交文本的分类准确度。的分类准确度。的分类准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合表情符号的社交文本情感分析方法及装置

[0001]本专利技术涉及自然语言处理领域，更具体涉及一种融合表情符号的社交文本情感分析方法及装置。

技术介绍

[0002]随着社交媒体的不断发展，人们逐渐习惯于在社交平台上发表自己的观点、分享日常的生活。社交平台的历史公共数据包含了大量有价值的情感信息，不仅可供商业使用，还可用于心理学、认知语言学或政治学。相较传统文本表达方式，人们在社交平台上表达情感的方式更为丰富。近几年，表情符号随着社交媒体的兴起开始流行于大众在社交平台的日常交流中，成为网络交流中一个新的广泛的方面，其作为一个情感信息丰富的文本符号能够帮助我们对众多非规范化的社交文本更好的进行情感分析。
[0003]随着表情符号在社交文本中的普遍使用，一些学者也开始投入到融合表情符号的社交文本情感分析研究，尝试将表情与文本信息等价，在情感分析预测任务中将表情与文本转为词向量融合输入模型训练，并且取得了不错的分类效果。
[0004]目前，人们提出融合表情符号的社交文本情感分析模型主要包含以下几类：将表情符号与文本分离，通过人工标记或数据统计将表情符号转换为额外情感信息，辅助文本的情感分类任务(基于规则的方法)，例如中国专利公开号CN111626050A公开的基于表情词典与情感常识的微博情感分析方法。保持表情符号在文本中的位置关系，将表情符号与文本融合预训练转化为词嵌入向量参与后续的神经网络模型训练(基于深度学习的方法)，例如中国专利公开号CN111898384A，公开的一种文本情感识别方法、装置、存储

【技术保护点】

【技术特征摘要】
1.一种融合表情符号的社交文本情感分析方法，其特征在于，所述方法包括以下步骤：S1：将无标注含表情文本数据和有标注社交文本数据做预处理，获取预训练文本数据，并将其中的表情符号提取作为预训练标签；S2：搭建基于长短期记忆子神经网络和自注意力机制子神经网络的神经网络模型对所述S1中预训练文本数据进行预训练，得到以表情符号为预测标签的预训练模型；S3：将S1中预处理的有标注社交文本数据输入至预训练模型，通过链式解冻方法更新预训练模型的参数，训练得到社交文本情感分类器；S4：将需要进行情感分类的社交文本输入至社交文本情感分类器，得到预测情感类别。2.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法，其特征在于，所述S1包括：将含表情符号的文本数据作为无标注含表情文本数据以及带有情感标注的社交文本数据作为有标注社交文本数据；过滤无标注含表情文本数据以及有标注社交文本数据中的噪声数据，所述噪声数据包括链接、转发符号以及用户名；对过滤噪声数据之后的数据中包含多个表情符号的文本进行复制，使得每个复制文本仅包含原始文本中的单个非重复的表情符号并删除原始文本；统计并选取所有文本数据中出现频率前N位的表情符号保留其对应的纯文本数据作为预训练文本数据；将预训练文本数据的表情符号提取出来作为其对应文本的唯一预训练标签。3.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法，其特征在于，所述神经网络模型包括Embedding层、两层的双向长短期记忆神经网络层、两层的自注意力机制层、特征连接层、单层的注意力机制层以及Softmax层，所述Embedding层接收预训练文本数据，Embedding层的输出端分别与两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输入端连接，Embedding层的输出端、两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输出端均与特征连接层的输入端连接，特征连接层的输出端与单层的注意力机制层的输入端连接，单层的注意力机制层的输出端与Softmax层连接。4.根据权利要求3所述的一种融合表情符号的社交文本情感分析方法，其特征在于，所述S2包括：将所述预训练文本数据输入至预训练模型的Embedding层，得到所述预训练文本数据的输入向量序列；将所述输入向量序列分别输入至两层的双向长短期记忆神经网络层及两层的自注意力机制层，分别得到所述预训练文本数据的句法相关特征和语义相关特征；将所述两层的双向长短期记忆神经网络层及两层的自注意力机制层的每层输出特征向量与Embedding层输出的输入向量序列进行向量拼接，得到所述预训练文本数据的连接特征向量；将所述连接特征向量输入至单层的注意力机制层，所述单层的注意力机制层用于让模型训练期间关注所述预训练文本数据句子的关键特征，给予关键特征更高的权重，得到所述预训练文本数据的文本表示向量；将所述文本表示向量输入Softmax层进行归一化处理得到所述预训练文本数据句子的
预测表情类别标签；基于所述预测表情类别标签与对应文本实际含有表情结果的差异，计算所述预训练模型对应的第一损失函数，更新所述预训练模型中各模块的参数，训练并完成最终的预训练模型。5.根据权利要求4所述的一种融合表情符号的社交文本情感分析方法，其特征在于，所述第一损失函数的表达式为其中，N表示在所述S1预处理阶段所选择的作为预训练类别标签的非重复表情数量，y<...

【专利技术属性】
技术研发人员：陈洁，姚志强，赵姝，张燕平，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人