基于融合特征的网络短文本情感分析方法技术

技术编号：34324993 阅读：25 留言：0更新日期：2022-07-31 00:57

本发明专利技术提出了一种基于融合特征的网络短文本情感分析方法，首先改进了对弹幕数据集的标注方法，弹幕是一种特殊的短文本，在标注弹幕时同时考虑视频的内容可以更准确地反映弹幕的真实情感。相较于传统弹幕标注只考虑文本本身的方法，提高了文本分析的准确性。然后构建了一个基于文本和时间双通道的特征融合的短文本情感分析模型，文本通道使用ERNIE和文本卷积神经网络(TextCNN)对弹幕的深层语义特征进行进一步地提取，并融合字向量特征、词向量特征以及时间特征，从而加强弹幕的语义表达，使得弹幕的语义表达更加准确，从而有效提高分类效果。高分类效果。高分类效果。

Emotion analysis method of network short text based on fusion features

全部详细技术资料下载

【技术实现步骤摘要】
基于融合特征的网络短文本情感分析方法

[0001]本专利技术属于文本分类领域，具体涉及一种基于融合特征的网络短文本情感分析方法。

技术介绍

[0002]弹幕发源于日本，最早是指一种街机射击游戏，玩家可以使用武器在屏幕上发射大量的子弹。2006年出现了第一个弹幕视频网站:NICONICO。观众在观看视频时可以通过浏览器发送文字实时分享自己的看法，这些文字以类似子弹划过屏幕的方式投射在视频上，因此称为“弹幕”。
[0003]目前，对于弹幕的研究主要集中在文化和传播领域，关于弹幕的情感分析研究较少。传统的弹幕情感分析只考虑文本本身，把弹幕当成一般的短文本。但是，弹幕与传统的微博、电影和商品评论等不同，它由观众实时发布，与视频内容高度关联，省略的信息较多，形式多样，文本较短且结构复杂。弹幕省略的信息隐藏在视频内容中以及与其时间上相邻的弹幕中。因此，判断一条弹幕的情感倾向，还应该结合视频内容进行进一步的判断。但是，视频的特征表达非常困难，我们可以用弹幕的发送时间加以代替。一般来说，在相近时间内发送的弹幕有相似的语义特征。在弹幕的情感分析研究中，时间一般用于标记视频的高光片段，研究用户的行为模式，协助视频的推荐和分类算法，很少有人考虑将弹幕的发送时间作为特征之一引入到情感分析的方法中。
[0004]同时，传统的弹幕数据集使用机器学习的方法和传统的人工标注方法，存在两个缺陷。首先，机器学习的标注方法依赖于模型的性能，而目前的模型并不能很好的处理信息语义缺失的短文本，因此会产生比较多的标注错误的数据；其次，传统的人工...

【技术保护点】

【技术特征摘要】
1.一种基于融合特征的网络短文本情感分析方法，其特征在于，包括以下步骤：步骤S1，对待测原始弹幕数据进行情感极性的标注生成标注后数据；步骤S2，构建并使用预定训练集训练得到基于文本和时间双通道的短文本情感分析模型，该模型具有输入层、嵌入层、融合层以及分类层；步骤S3，将所述标注后数据输入至所述短文本情感分析模型中，通过所述输入层提取对应的文本信息和时间信息；步骤S4，由所述嵌入层对所述文本信息和时间信息进行向量化处理，分别得到与所述文本信息对应的字向量、词向量以及和所述时间信息对应的时间向量；步骤S5，将所述字向量和词向量作为所述融合层的输入，进行深度特征提取得到字特征向量、词特征向量，并将字、词特征向量与所述时间向量拼接得到弹幕特征向量；步骤S6，通过所述分类层计算所述弹幕特征向量的文本标签的类别概率，从而得到所述待测原始弹幕数据的情感类别分析结果。2.根据权利要求1所述的基于融合特征的网络短文本情感分析方法，其特征在于：其中，所述嵌入层具有ERNIE模型和线性激活函数，所述ERNIE模型的编码器由transformer结构组成，所述词向量基于所述transformer结构对所述文本信息进行向量化处理得到：V
w
＝f(W
e
x
i
)式中，f是编码器，W
e
是需要被学习的参数，设定每条弹幕含有n个字，将每个字都转换成其one
‑
hot向量的形式x
i
＝(x1,x2...x
n
)，通过嵌入矩阵W
c
得到x
i
的嵌入向量表达形式v
i
，v
i
＝W
c
x
i
，再将每个字的嵌入向量进行拼接得到所述字向量，所述时间向量基于所述线性激活函数对弹幕的时间特征进行表示得到。3.根据权利要求1所述的基于融合特征的网络短文本情感分析方法，其特征在于：其中，所述融合层具有TextCNN模型，所述TextCNN模...

【专利技术属性】
技术研发人员：牟雪峰，李海明，
申请(专利权)人：上海电力大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人