一种社交短文本情感分类方法、装置及存储介质制造方法及图纸

技术编号：27030642 阅读：17 留言：0更新日期：2021-01-12 11:13

本发明专利技术公开了一种社交短文本情感分类方法、装置及存储介质，在自动分析和挖掘社交短文本的情感倾向时，先获取用户发表的文本，再抽取计算文本上下文情感特征值和先验极性情感特征值，使用Word2Vec等预训练词向量模型训练生成文本词向量表示，利用多窗口卷积操作，获取不同粒度的文本语义关系，使用多头自注意力网络，有效捕获和记忆文本较长距离上下文语义信息，同时避免循环神经网络无法并行计算的问题，多层卷积和池化组合从不同层次抽象文本情感语义表示，最后组合不同层次的情感特征向量表示，能够更加全面和多样的描述文本所包含的显式和隐式的情感语义特征，从而提高短文情感极性分析的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种社交短文本情感分类方法、装置及存储介质
本专利技术涉及自然语言处理领域，具体涉及一种社交短文本情感分类方法、装置及存储介质。
技术介绍
以微博，Twitter，微信为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介，成为社会公共舆论、企业品牌和产品推广以及传统媒体传播的主要平台。截止2020年一季度，全球微博服务站点Twitter可货币化月活跃用户达到1.2亿，中文微博平台新浪微博月度活跃用户数达到5.5亿。数以亿计的活跃用户每时每刻都在生成大量包含用户主观意见、情感的信息。这些文本信息包含着网民各种情绪、情感色彩和观点倾向。潜在用户通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法。针对特定应用需求，识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息，是当前互联网智能信息处理、数据挖掘、计算语言学等领域的一个热点研究问题，在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。以微博、微信为代表的社交文本内容一般比较短小、语言表达比较随意，口语化现象严重，这些短小且不完整的文本表达使得传统文本情感分析技术面临更大的挑战。已有采用人工方式构建分类特征和传统机器学习的方法难以适应，很多深度学习方法也面临隐含语义特征刻画描述不完整、文本较远距离上下文语义难以描述，识别分类效果不佳，利用循环神经网络结构方法虽然能够表达较远上下文语义，但是存在网络结构复杂，计算速度慢，无法并行计算的问题。有鉴于此...

【技术保护点】
1.一种社交短文本情感分类方法，其特征在于，包括以下步骤：/nS1：获取社交短文本t，并对所述社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t)；/nS2：通过预训练词向量模型对所述社交短文本进行训练得到词向量t，将所述词向量t输入卷积网络层，分别计算生成文本语义的局部特征向量，将所述局部特征向量连接形成上下文情感信息特征向量c

【技术特征摘要】
1.一种社交短文本情感分类方法，其特征在于，包括以下步骤：
S1：获取社交短文本t，并对所述社交短文本进行预处理后计算每一条社交短文本的先验情感特征值SenScore(t)；
S2：通过预训练词向量模型对所述社交短文本进行训练得到词向量t，将所述词向量t输入卷积网络层，分别计算生成文本语义的局部特征向量，将所述局部特征向量连接形成上下文情感信息特征向量ct，通过Doc2vec模型对所述词向量t训练得到句子级特征向量td，将所述下文情感信息特征向量和所述句子级特征向量连接形成第一连接向量将所述第一连接向量输入深度卷积神经网络输出第一固定长度向量o'；
S3：将所述词向量t和表示所述聊天文本中每个单词位置的位置向量q组合形成第一联合词向量Z＝q+t，将所述第一联合词向量Z通过l头自注意力网络MHSA，训练生成包含情感词语重要性权重的文本向量，连接l个所述文本向量形成包含文本重要性的特征词向量H，将所述第一联合词向量Z与所述特征词向量H连接并做归一化得到第二联合词向量将所述第二联合词向量Z'输入深度卷积神经网络的池化层，使用最大池化策略，得到第二固定长度向量u＝maxpool(Z')；
S4：将所述先验情感特征值、所述第一固定长度向量与所述第二固定长度向量连接得到多层次文本情感特征向量将所述多层次文本情感特征向量输入全连接网络层计算输出向量y；以及
S5：对所述输出向量y使用softmax函数计算所述社交短文本所属类别的概率值，将概率值最大的类别作为所述社交短文本的情感标记。

2.根据权利要求1所述的社交短文本情感分类方法，其特征在于，所述步骤S1具体包括：
S11：对所述社交短文本进行清洗，删除所述社交短文本中非文本字符、超链接、数字、一般标点符号和特殊符号，并对所述社交短文本进行分词处理；
S12：抽取所述社交短文本中的表情符号、重复标点符号和英文大写单词数量作为短文本上下文情感特征tc；以及
S13：计算每一条所述社交短文本的先验极性特征值SenScore(t)。

3.根据权利要求1所述的社交短文本情感分类方法，其特征在于，通过下式计算先验极性特征值SenScore(t)：

其中wi为所述社交短文本中的单词项，n为所述社交短文本的长度，PMI(wi,pos)是单词项wi与正向情感分类的点互信息PMI，PMI(wi,neg)是单词项wi与负向情感分类的点互信息PMI，单词wi的情感值由情感字典获得。

4.根据权利要求1所述的社交短文本情感分类方法，其特征在于，所述步骤S2中的所述卷积网络层使用多个可变窗口大小h的卷积核，分别计算生成所述局部特征向量xi＝f(W·ti:i+h-1+b)，其中W为所述卷积网络层的权重参数，b为网络层的偏置，i:i+h-1为所述卷积网络层的卷积核范围。

5.根据权利要求1所述的社交短文本情感分类方法，其特征在于，所述步骤S2中将所述第一连接向量输入深度卷积神经网络输出第一固定长度向量具体包括：
S21：将所述第一连接向量输入所述深度卷积神经网络的池化层，使用Top-K池化策略，得到池化输出向量o＝kmax{ct}；
S2...

【专利技术属性】
技术研发人员：赵建强，陈诚，蒋卓，杜新胜，张辉极，陈志明，邓叶勋，黄剑，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人