基于融合特征的网络短文本情感分析方法技术

技术编号:34324993 阅读:25 留言:0更新日期:2022-07-31 00:57
本发明专利技术提出了一种基于融合特征的网络短文本情感分析方法,首先改进了对弹幕数据集的标注方法,弹幕是一种特殊的短文本,在标注弹幕时同时考虑视频的内容可以更准确地反映弹幕的真实情感。相较于传统弹幕标注只考虑文本本身的方法,提高了文本分析的准确性。然后构建了一个基于文本和时间双通道的特征融合的短文本情感分析模型,文本通道使用ERNIE和文本卷积神经网络(TextCNN)对弹幕的深层语义特征进行进一步地提取,并融合字向量特征、词向量特征以及时间特征,从而加强弹幕的语义表达,使得弹幕的语义表达更加准确,从而有效提高分类效果。高分类效果。高分类效果。

Emotion analysis method of network short text based on fusion features

【技术实现步骤摘要】
基于融合特征的网络短文本情感分析方法


[0001]本专利技术属于文本分类领域,具体涉及一种基于融合特征的网络短文本情感分析方法。

技术介绍

[0002]弹幕发源于日本,最早是指一种街机射击游戏,玩家可以使用武器在屏幕上发射大量的子弹。2006年出现了第一个弹幕视频网站:NICONICO。观众在观看视频时可以通过浏览器发送文字实时分享自己的看法,这些文字以类似子弹划过屏幕的方式投射在视频上,因此称为“弹幕”。
[0003]目前,对于弹幕的研究主要集中在文化和传播领域,关于弹幕的情感分析研究较少。传统的弹幕情感分析只考虑文本本身,把弹幕当成一般的短文本。但是,弹幕与传统的微博、电影和商品评论等不同,它由观众实时发布,与视频内容高度关联,省略的信息较多,形式多样,文本较短且结构复杂。弹幕省略的信息隐藏在视频内容中以及与其时间上相邻的弹幕中。因此,判断一条弹幕的情感倾向,还应该结合视频内容进行进一步的判断。但是,视频的特征表达非常困难,我们可以用弹幕的发送时间加以代替。一般来说,在相近时间内发送的弹幕有相似的语义特征。在弹幕的情感分析研究中,时间一般用于标记视频的高光片段,研究用户的行为模式,协助视频的推荐和分类算法,很少有人考虑将弹幕的发送时间作为特征之一引入到情感分析的方法中。
[0004]同时,传统的弹幕数据集使用机器学习的方法和传统的人工标注方法,存在两个缺陷。首先,机器学习的标注方法依赖于模型的性能,而目前的模型并不能很好的处理信息语义缺失的短文本,因此会产生比较多的标注错误的数据;其次,传统的人工标记方法只关注文本本身,对于弹幕这一类与承载它的内容相关的文本,如果只关注文本而忽视视频内容,同样也会产生较多的错误的标注数据。

技术实现思路

[0005]针对以上问题,本专利技术首先改进了数据的标注方法,提出了一个更加准确的弹幕情感数据集。然后构建了一种改进的弹幕情感分类方法,结合弹幕的字特征和词特征来加强弹幕的语义表示,并通过引入时间特征和外部知识来缓解弹幕的语义稀疏问题,提高了情感分类的准确度。
[0006]本专利技术提供了一种基于融合特征的网络短文本情感分析方法,其特征在于,包括以下步骤:步骤S1,对待测原始弹幕数据进行情感极性的标注生成标注后数据;步骤S2,构建并使用预定训练集训练得到基于文本和时间双通道的短文本情感分析模型,该模型具有输入层、嵌入层、融合层以及分类层;步骤S3,将标注后数据输入至短文本情感分析模型中,通过输入层提取对应的文本信息和时间信息;步骤S4,由嵌入层对文本信息和时间信息进行向量化处理,分别得到与文本信息对应的字向量、词向量以及和时间信息对应的时间向量;步骤S5,将字向量和词向量作为融合层的输入,进行深度特征提取得到字特征向量、词
特征向量,并将字、词特征向量与时间向量拼接得到弹幕特征向量;步骤S6,通过分类层计算弹幕特征向量的文本标签的类别概率,从而得到待测原始弹幕数据的情感类别分析结果。
[0007]在本专利技术提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,嵌入层具有ERNIE模型和线性激活函数,ERNIE模型的编码器由transformer结构组成,词向量基于transformer结构对文本信息进行向量化处理得到:V
w
=f(W
e
x
i
)式中,f是编码器,W
e
是需要被学习的参数,设定每条弹幕含有n个字,将每个字都转换成其one

hot向量的形式x
i
=(x1,x2...x
n
),通过嵌入矩阵W
c
得到x
i
的嵌入向量表达形式v
i
,v
i
=W
c
x
i
,再将每个字的嵌入向量进行拼接得到字向量,时间向量基于线性激活函数对弹幕的时间特征进行表示得到。
[0008]在本专利技术提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,融合层具有TextCNN模型,TextCNN模型用于对字向量和词向量进行深度特征提取得到对应的字特征向量和词特征向量,将字特征向量、词特征向量以及时间向量拼接得到弹幕特征向量S:
[0009]S=S
w
+S
c
+S
t
[0010]式中,S
w
为词特征向量,S
c
为字特征向量,S
t
为时间向量。
[0011]在本专利技术提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,预定训练集的获取过程为:采用遍历的方法爬取原始弹幕,并删除重复弹幕,将得到的弹幕按每3秒划分为一个子集,根据每个弹幕所对应的视频内容和上下文弹幕内容,对弹幕进行情感极性的标记。
[0012]在本专利技术提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,分类层包括BiGRU

ATT模型和softmax函数,BiGRU

ATT模型基于注意力机制ATTENTION和两个方向相反的GRU网络组成,弹幕特征向量作为BiGRU的输入,在t时刻由两个GRU共同决定,设定向前GRU在t时刻的状态为h
t1
,向后GRU在t时刻的状态为h
t2
,整个网络在t时刻的状态为h
t
,根据下式求得h
t
:h
t
=h
t1
+h
t2
,注意力机制ATTENTION将h
t
作为输入,并加权求和得到句子表达式r
i

[0013]m
i
=tanh(h
t
)
[0014]p
i
=softmax(Wmi)
[0015]r
i
=h
t
*p
i

[0016]softmax函数对句子表达式r
i
计算文本标签的类别概率,得到分类结果。
[0017]专利技术作用与效果
[0018]根据本专利技术的基于融合特征的网络短文本情感分析方法,首先改进了对弹幕数据集的标注方法,弹幕是一种特殊的短文本,在标注弹幕时同时考虑视频的内容可以更准确地反映弹幕的真实情感。相较于传统弹幕标注只考虑文本本身的方法,提高了文本分析的准确性。然后构建了一个基于文本和时间双通道的特征融合的短文本情感分析模型,文本通道使用ERNIE和文本卷积神经网络(TextCNN)对弹幕的深层语义特征进行进一步地提取,并融合字向量特征、词向量特征以及时间特征,从而加强弹幕的语义表达,使得弹幕的语义表达更加准确,从而有效提高分类效果。
附图说明
[0019]图1是本专利技术实施例的基于融合特征的网络短文本情感分析方法的流程图;
[0020]图2是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合特征的网络短文本情感分析方法,其特征在于,包括以下步骤:步骤S1,对待测原始弹幕数据进行情感极性的标注生成标注后数据;步骤S2,构建并使用预定训练集训练得到基于文本和时间双通道的短文本情感分析模型,该模型具有输入层、嵌入层、融合层以及分类层;步骤S3,将所述标注后数据输入至所述短文本情感分析模型中,通过所述输入层提取对应的文本信息和时间信息;步骤S4,由所述嵌入层对所述文本信息和时间信息进行向量化处理,分别得到与所述文本信息对应的字向量、词向量以及和所述时间信息对应的时间向量;步骤S5,将所述字向量和词向量作为所述融合层的输入,进行深度特征提取得到字特征向量、词特征向量,并将字、词特征向量与所述时间向量拼接得到弹幕特征向量;步骤S6,通过所述分类层计算所述弹幕特征向量的文本标签的类别概率,从而得到所述待测原始弹幕数据的情感类别分析结果。2.根据权利要求1所述的基于融合特征的网络短文本情感分析方法,其特征在于:其中,所述嵌入层具有ERNIE模型和线性激活函数,所述ERNIE模型的编码器由transformer结构组成,所述词向量基于所述transformer结构对所述文本信息进行向量化处理得到:V
w
=f(W
e
x
i
)式中,f是编码器,W
e
是需要被学习的参数,设定每条弹幕含有n个字,将每个字都转换成其one

hot向量的形式x
i
=(x1,x2...x
n
),通过嵌入矩阵W
c
得到x
i
的嵌入向量表达形式v
i
,v
i
=W
c
x
i
,再将每个字的嵌入向量进行拼接得到所述字向量,所述时间向量基于所述线性激活函数对弹幕的时间特征进行表示得到。3.根据权利要求1所述的基于融合特征的网络短文本情感分析方法,其特征在于:其中,所述融合层具有TextCNN模型,所述TextCNN模...

【专利技术属性】
技术研发人员:牟雪峰李海明
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1