一种社交短文本情感分类方法、装置及存储介质制造方法及图纸

技术编号:27030642 阅读:17 留言:0更新日期:2021-01-12 11:13
本发明专利技术公开了一种社交短文本情感分类方法、装置及存储介质,在自动分析和挖掘社交短文本的情感倾向时,先获取用户发表的文本,再抽取计算文本上下文情感特征值和先验极性情感特征值,使用Word2Vec等预训练词向量模型训练生成文本词向量表示,利用多窗口卷积操作,获取不同粒度的文本语义关系,使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题,多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。

【技术实现步骤摘要】
一种社交短文本情感分类方法、装置及存储介质
本专利技术涉及自然语言处理领域,具体涉及一种社交短文本情感分类方法、装置及存储介质。
技术介绍
以微博,Twitter,微信为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介,成为社会公共舆论、企业品牌和产品推广以及传统媒体传播的主要平台。截止2020年一季度,全球微博服务站点Twitter可货币化月活跃用户达到1.2亿,中文微博平台新浪微博月度活跃用户数达到5.5亿。数以亿计的活跃用户每时每刻都在生成大量包含用户主观意见、情感的信息。这些文本信息包含着网民各种情绪、情感色彩和观点倾向。潜在用户通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法。针对特定应用需求,识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息,是当前互联网智能信息处理、数据挖掘、计算语言学等领域的一个热点研究问题,在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。以微博、微信为代表的社交文本内容一般比较短小、语言表达比较随意,口语化现象严重,这些短小且不完整的文本表达使得传统文本情感分析技术面临更大的挑战。已有采用人工方式构建分类特征和传统机器学习的方法难以适应,很多深度学习方法也面临隐含语义特征刻画描述不完整、文本较远距离上下文语义难以描述,识别分类效果不佳,利用循环神经网络结构方法虽然能够表达较远上下文语义,但是存在网络结构复杂,计算速度慢,无法并行计算的问题。有鉴于此,建立一种创新的社交短文本情感分类方法和装置是非常具有意义的。
技术实现思路
针对上述提到的已有短文本分类方法面临远距离上下文语义描述困难和循环神经网络结构方法计算速度慢,无法并行计算等问题。本申请的实施例的目的在于提出了一种社交短文本情感分类方法、装置及存储介质来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请的实施例提供了一种社交短文本情感分类方法,包括以下步骤:S1:获取社交短文本t,并对社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t);S2:通过预训练词向量模型对社交短文本进行训练得到词向量t,将词向量t输入卷积网络层,分别计算生成文本语义的局部特征向量,将局部特征向量连接形成上下文情感信息特征向量ct,通过Doc2vec模型对词向量t训练得到句子级特征向量td,将下文情感信息特征向量和句子级特征向量连接形成第一连接向量将第一连接向量输入深度卷积神经网络输出第一固定长度向量o';S3:将词向量t和表示聊天文本中每个单词位置的位置向量q组合形成第一联合词向量Z=q+t,将第一联合词向量Z通过l头自注意力网络MHSA,训练生成包含情感词语重要性权重的文本向量,连接l个文本向量形成包含文本重要性的特征词向量H,将第一联合词向量Z与特征词向量H连接并做归一化得到第二联合词向量将第二联合词向量Z'输入深度卷积神经网络的池化层,使用最大池化策略,得到第二固定长度向量u=maxpool(Z');S4:将先验情感特征值、第一固定长度向量与第二固定长度向量连接得到多层次文本情感特征向量将多层次文本情感特征向量输入全连接网络层计算输出向量y;以及S5:对输出向量y使用softmax函数计算社交短文本所属类别的概率值,将概率值最大的类别作为社交短文本的情感标记。在一些实施例中,步骤S1具体包括:S11:对社交短文本进行清洗,删除社交短文本中非文本字符、超链接、数字、一般标点符号和特殊符号,并对社交短文本进行分词处理;S12:抽取社交短文本中的表情符号、重复标点符号和英文大写单词数量作为短文本上下文情感特征tc;以及S13:计算每一条社交短文本的先验极性特征值SenScore(t)。计算短文本的先验极性特征值SenScore(t),后续进行情感分类时考虑该因子,可提高分类的准确性。在一些实施例中,通过下式计算先验极性特征值SenScore(t):其中wi为社交短文本中的单词项,n为社交短文本的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。在一些实施例中,步骤S2中的卷积网络层使用多个可变窗口大小h的卷积核,分别计算生成局部特征向量xi=f(W·ti:i+h-1+b),其中W为卷积网络层的权重参数,b为网络层的偏置,i:i+h-1为卷积网络层的卷积核范围。利用多窗口卷积操作,获取不同粒度的文本语义关系。在一些实施例中,步骤S2中将第一连接向量输入深度卷积神经网络输出第一固定长度向量具体包括:S21:将第一连接向量输入深度卷积神经网络的池化层,使用Top-K池化策略,得到池化输出向量o=kmax{ct};S22:将池化输出向量o作为特征输入卷积层进行卷积操作,将卷积操作得到的输出向量再进行Top-K池化操作,经过多个卷积层和池化层的组合网络层,最后一层使用最大化池化操作输出第一固定长度向量o'。多层卷积和池化组合从不同层次抽象文本情感语义表示,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征,从而提高短文情感极性分析的性能。在一些实施例中,步骤S3中第一联合词向量Z通过l头自注意力网络MHSA,训练生成包含情感词语重要性权重的文本向量具体包括:其中为自注意力网络学习的参数,d为向量Qi的维度。使用多头自注意力网络,有效捕获和记忆文本较长距离上下文语义信息,同时避免循环神经网络无法并行计算的问题。在一些实施例中,步骤S4中输出向量y=WOt+b,其中W为输出层的转移矩阵,b为输出层的偏置系数。在一些实施例中,步骤S5中通过下式计算概率值:其中,θ表示要分类学习的参数,ys表示输出向量y的第s个分量,yg表示输出向量y的第g个分量。第二方面,本申请的实施例还提出一种社交短文本情感分类装置,包括:先验情感特征值计算模块,被配置为获取社交短文本t,并对社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t);第一固定长度向量计算模块,被配置为通过预训练词向量模型对社交短文本进行训练得到词向量t,将词向量t输入卷积网络层,分别计算生成文本语义的局部特征向量,将局部特征向量连接形成上下文情感信息特征向量ct,通过Doc2vec模型对词向量t训练得到句子级特征向量td,将下文情感信息特征向量和句子级特征向量连接形成第一连接向量将第一连接向量输入深度卷积神经网络输出第一固定长度向量o';第二固定长度向量计算模块,被配置为将词向量t和表示聊天文本中每个单词位置的位置向量q组合形成第一联合词向量Z=q+t,将第一联合词向量Z通过l头自注意力网络MHSA,训练生成包含情感词语重要性权重的文本向量,连本文档来自技高网
...

【技术保护点】
1.一种社交短文本情感分类方法,其特征在于,包括以下步骤:/nS1:获取社交短文本t,并对所述社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t);/nS2:通过预训练词向量模型对所述社交短文本进行训练得到词向量t,将所述词向量t输入卷积网络层,分别计算生成文本语义的局部特征向量,将所述局部特征向量连接形成上下文情感信息特征向量c

【技术特征摘要】
1.一种社交短文本情感分类方法,其特征在于,包括以下步骤:
S1:获取社交短文本t,并对所述社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t);
S2:通过预训练词向量模型对所述社交短文本进行训练得到词向量t,将所述词向量t输入卷积网络层,分别计算生成文本语义的局部特征向量,将所述局部特征向量连接形成上下文情感信息特征向量ct,通过Doc2vec模型对所述词向量t训练得到句子级特征向量td,将所述下文情感信息特征向量和所述句子级特征向量连接形成第一连接向量将所述第一连接向量输入深度卷积神经网络输出第一固定长度向量o';
S3:将所述词向量t和表示所述聊天文本中每个单词位置的位置向量q组合形成第一联合词向量Z=q+t,将所述第一联合词向量Z通过l头自注意力网络MHSA,训练生成包含情感词语重要性权重的文本向量,连接l个所述文本向量形成包含文本重要性的特征词向量H,将所述第一联合词向量Z与所述特征词向量H连接并做归一化得到第二联合词向量将所述第二联合词向量Z'输入深度卷积神经网络的池化层,使用最大池化策略,得到第二固定长度向量u=maxpool(Z');
S4:将所述先验情感特征值、所述第一固定长度向量与所述第二固定长度向量连接得到多层次文本情感特征向量将所述多层次文本情感特征向量输入全连接网络层计算输出向量y;以及
S5:对所述输出向量y使用softmax函数计算所述社交短文本所属类别的概率值,将概率值最大的类别作为所述社交短文本的情感标记。


2.根据权利要求1所述的社交短文本情感分类方法,其特征在于,所述步骤S1具体包括:
S11:对所述社交短文本进行清洗,删除所述社交短文本中非文本字符、超链接、数字、一般标点符号和特殊符号,并对所述社交短文本进行分词处理;
S12:抽取所述社交短文本中的表情符号、重复标点符号和英文大写单词数量作为短文本上下文情感特征tc;以及
S13:计算每一条所述社交短文本的先验极性特征值SenScore(t)。


3.根据权利要求1所述的社交短文本情感分类方法,其特征在于,通过下式计算先验极性特征值SenScore(t):



其中wi为所述社交短文本中的单词项,n为所述社交短文本的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。


4.根据权利要求1所述的社交短文本情感分类方法,其特征在于,所述步骤S2中的所述卷积网络层使用多个可变窗口大小h的卷积核,分别计算生成所述局部特征向量xi=f(W·ti:i+h-1+b),其中W为所述卷积网络层的权重参数,b为网络层的偏置,i:i+h-1为所述卷积网络层的卷积核范围。


5.根据权利要求1所述的社交短文本情感分类方法,其特征在于,所述步骤S2中将所述第一连接向量输入深度卷积神经网络输出第一固定长度向量具体包括:
S21:将所述第一连接向量输入所述深度卷积神经网络的池化层,使用Top-K池化策略,得到池化输出向量o=kmax{ct};
S2...

【专利技术属性】
技术研发人员:赵建强陈诚蒋卓杜新胜张辉极陈志明邓叶勋黄剑
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1