当前位置: 首页 > 专利查询>安徽大学专利>正文

一种融合表情符号的社交文本情感分析方法及装置制造方法及图纸

技术编号:35284921 阅读:29 留言:0更新日期:2022-10-22 12:28
本发明专利技术公开了一种融合表情符号的社交文本情感分析方法及装置,所述方法包括:将无标注含表情文本数据和有标注社交文本数据做预处理,获取预训练文本数据,并将其中的表情符号提取作为预训练标签;搭建神经网络模型对预训练文本数据进行预训练,得到以表情符号为预测标签的预训练模型;将预处理的有标注社交文本数据输入至预训练模型,通过链式解冻方法更新预训练模型的参数,训练得到社交文本情感分类器;将需要进行情感分类的社交文本输入至社交文本情感分类器,得到预测情感类别;本发明专利技术的优点在于:克服了社交文本与表情符号分割处理导致情感信息遗失的局限性,提升对社交文本的分类准确度。的分类准确度。的分类准确度。

【技术实现步骤摘要】
一种融合表情符号的社交文本情感分析方法及装置


[0001]本专利技术涉及自然语言处理领域,更具体涉及一种融合表情符号的社交文本情感分析方法及装置。

技术介绍

[0002]随着社交媒体的不断发展,人们逐渐习惯于在社交平台上发表自己的观点、分享日常的生活。社交平台的历史公共数据包含了大量有价值的情感信息,不仅可供商业使用,还可用于心理学、认知语言学或政治学。相较传统文本表达方式,人们在社交平台上表达情感的方式更为丰富。近几年,表情符号随着社交媒体的兴起开始流行于大众在社交平台的日常交流中,成为网络交流中一个新的广泛的方面,其作为一个情感信息丰富的文本符号能够帮助我们对众多非规范化的社交文本更好的进行情感分析。
[0003]随着表情符号在社交文本中的普遍使用,一些学者也开始投入到融合表情符号的社交文本情感分析研究,尝试将表情与文本信息等价,在情感分析预测任务中将表情与文本转为词向量融合输入模型训练,并且取得了不错的分类效果。
[0004]目前,人们提出融合表情符号的社交文本情感分析模型主要包含以下几类:将表情符号与文本分离,通过人工标记或数据统计将表情符号转换为额外情感信息,辅助文本的情感分类任务(基于规则的方法),例如中国专利公开号CN111626050A公开的基于表情词典与情感常识的微博情感分析方法。保持表情符号在文本中的位置关系,将表情符号与文本融合预训练转化为词嵌入向量参与后续的神经网络模型训练(基于深度学习的方法),例如中国专利公开号CN111898384A,公开的一种文本情感识别方法、装置、存储介质及电子设备。
[0005]然而,上述融合表情符号的社交文本情感分析的方法忽略了表情符号的特殊性。先表情符号在用户使用过程中用户赋予表情的含义大多已经偏离了官方的初始定义;同时,表情符号还会由于时间、地点、文化、语境的不同表达出不同的含义,因此基于规则的方法并不能对表情符号有一个很好的通用规则定义。除此之外,表情符号在社交文本中往往起到了情感标签的作用,其本身所含有的情感信息相较纯文本更加丰富,在基于深度学习的方法中如果只是仅仅将表情符号转化为词向量与文本同时处理会使得用户赋予表情符号的丰富情感被遗失,因此单一的使用上述方法会造成部分关键情感信息的遗失,使得对社交文本的分类准确度并不高。

技术实现思路

[0006]本专利技术所要解决的技术问题在于现有技术融合表情符号的社交文本情感分析方法容易造成部分关键情感信息的遗失,使得对社交文本的分类准确度并不高。
[0007]本专利技术通过以下技术手段实现解决上述技术问题的:一种融合表情符号的社交文本情感分析方法,所述方法包括以下步骤:
[0008]S1:将无标注含表情文本数据和有标注社交文本数据做预处理,获取预训练文本
数据,并将其中的表情符号提取作为预训练标签;
[0009]S2:搭建基于长短期记忆子神经网络和自注意力机制子神经网络的神经网络模型对所述S1中预训练文本数据进行预训练,得到以表情符号为预测标签的预训练模型;
[0010]S3:将S1中预处理的有标注社交文本数据输入至预训练模型,通过链式解冻方法更新预训练模型的参数,训练得到社交文本情感分类器;
[0011]S4:将需要进行情感分类的社交文本输入至社交文本情感分类器,得到预测情感类别。
[0012]本专利技术提出了一种将表情符号作为预训练模型分类标签来对文本数据做预训练的方法,该预训练模型使得表情符号丰富的情感信息能够在预训练过程中融入到纯文本单词特征表示中,克服了社交文本与表情符号分割处理导致情感信息遗失的局限性,提升对社交文本的分类准确度。
[0013]进一步地,所述S1包括:
[0014]将含表情符号的文本数据作为无标注含表情文本数据以及带有情感标注的社交文本数据作为有标注社交文本数据;
[0015]过滤无标注含表情文本数据以及有标注社交文本数据中的噪声数据,所述噪声数据包括链接、转发符号以及用户名;
[0016]对过滤噪声数据之后的数据中包含多个表情符号的文本进行复制,使得每个复制文本仅包含原始文本中的单个非重复的表情符号并删除原始文本;
[0017]统计并选取所有文本数据中出现频率前N位的表情符号保留其对应的纯文本数据作为预训练文本数据;将预训练文本数据的表情符号提取出来作为其对应文本的唯一预训练标签。
[0018]进一步地,所述神经网络模型包括Embedding层、两层的双向长短期记忆神经网络层、两层的自注意力机制层、特征连接层、单层的注意力机制层以及Softmax层,所述Embedding层接收预训练文本数据,Embedding层的输出端分别与两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输入端连接,Embedding层的输出端、两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输出端均与特征连接层的输入端连接,特征连接层的输出端与单层的注意力机制层的输入端连接,单层的注意力机制层的输出端与Softmax层连接。
[0019]更进一步地,所述S2包括:
[0020]将所述预训练文本数据输入至预训练模型的Embedding层,得到所述预训练文本数据的输入向量序列;
[0021]将所述输入向量序列分别输入至两层的双向长短期记忆神经网络层及两层的自注意力机制层,分别得到所述预训练文本数据的句法相关特征和语义相关特征;
[0022]将所述两层的双向长短期记忆神经网络层及两层的自注意力机制层的每层输出特征向量与Embedding层输出的输入向量序列进行向量拼接,得到所述预训练文本数据的连接特征向量;
[0023]将所述连接特征向量输入至单层的注意力机制层,所述单层的注意力机制层用于让模型训练期间关注所述预训练文本数据句子的关键特征,给予关键特征更高的权重,得到所述预训练文本数据的文本表示向量;
[0024]将所述文本表示向量输入Softmax层进行归一化处理得到所述预训练文本数据句子的预测表情类别标签;
[0025]基于所述预测表情类别标签与对应文本实际含有表情结果的差异,计算所述预训练模型对应的第一损失函数,更新所述预训练模型中各模块的参数,训练并完成最终的预训练模型。
[0026]更进一步地,所述第一损失函数的表达式为
[0027][0028]其中,N表示在所述S1预处理阶段所选择的作为预训练类别标签的非重复表情数量,y
i
表示预测文本实际含有第i个表情的有无,若含有第i个表情则y
i
为1,反之为0;表示预测文本预测含有第i个表情的概率,N个表情标签的预测概率总和为1。
[0029]更进一步地,所述文本表示向量的计算方式为:
[0030]e
t
=h
t
w
a
[0031][0032][0033]其中,h
t
是单词在时间步长t的表示,w
a
是单层的注意力机制层的权重矩阵,a
t...

【技术保护点】

【技术特征摘要】
1.一种融合表情符号的社交文本情感分析方法,其特征在于,所述方法包括以下步骤:S1:将无标注含表情文本数据和有标注社交文本数据做预处理,获取预训练文本数据,并将其中的表情符号提取作为预训练标签;S2:搭建基于长短期记忆子神经网络和自注意力机制子神经网络的神经网络模型对所述S1中预训练文本数据进行预训练,得到以表情符号为预测标签的预训练模型;S3:将S1中预处理的有标注社交文本数据输入至预训练模型,通过链式解冻方法更新预训练模型的参数,训练得到社交文本情感分类器;S4:将需要进行情感分类的社交文本输入至社交文本情感分类器,得到预测情感类别。2.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法,其特征在于,所述S1包括:将含表情符号的文本数据作为无标注含表情文本数据以及带有情感标注的社交文本数据作为有标注社交文本数据;过滤无标注含表情文本数据以及有标注社交文本数据中的噪声数据,所述噪声数据包括链接、转发符号以及用户名;对过滤噪声数据之后的数据中包含多个表情符号的文本进行复制,使得每个复制文本仅包含原始文本中的单个非重复的表情符号并删除原始文本;统计并选取所有文本数据中出现频率前N位的表情符号保留其对应的纯文本数据作为预训练文本数据;将预训练文本数据的表情符号提取出来作为其对应文本的唯一预训练标签。3.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法,其特征在于,所述神经网络模型包括Embedding层、两层的双向长短期记忆神经网络层、两层的自注意力机制层、特征连接层、单层的注意力机制层以及Softmax层,所述Embedding层接收预训练文本数据,Embedding层的输出端分别与两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输入端连接,Embedding层的输出端、两层的双向长短期记忆神经网络层以及两层的自注意力机制层的输出端均与特征连接层的输入端连接,特征连接层的输出端与单层的注意力机制层的输入端连接,单层的注意力机制层的输出端与Softmax层连接。4.根据权利要求3所述的一种融合表情符号的社交文本情感分析方法,其特征在于,所述S2包括:将所述预训练文本数据输入至预训练模型的Embedding层,得到所述预训练文本数据的输入向量序列;将所述输入向量序列分别输入至两层的双向长短期记忆神经网络层及两层的自注意力机制层,分别得到所述预训练文本数据的句法相关特征和语义相关特征;将所述两层的双向长短期记忆神经网络层及两层的自注意力机制层的每层输出特征向量与Embedding层输出的输入向量序列进行向量拼接,得到所述预训练文本数据的连接特征向量;将所述连接特征向量输入至单层的注意力机制层,所述单层的注意力机制层用于让模型训练期间关注所述预训练文本数据句子的关键特征,给予关键特征更高的权重,得到所述预训练文本数据的文本表示向量;将所述文本表示向量输入Softmax层进行归一化处理得到所述预训练文本数据句子的
预测表情类别标签;基于所述预测表情类别标签与对应文本实际含有表情结果的差异,计算所述预训练模型对应的第一损失函数,更新所述预训练模型中各模块的参数,训练并完成最终的预训练模型。5.根据权利要求4所述的一种融合表情符号的社交文本情感分析方法,其特征在于,所述第一损失函数的表达式为其中,N表示在所述S1预处理阶段所选择的作为预训练类别标签的非重复表情数量,y<...

【专利技术属性】
技术研发人员:陈洁姚志强赵姝张燕平
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1