基于时间特征的弹幕情感分析方法技术

技术编号:34321500 阅读:62 留言:0更新日期:2022-07-31 00:17
本发明专利技术提供了一种基于时间特征的弹幕情感分析方法,首先对原始弹幕数据进行了分词、去除停用词等文本预处理,来提高嵌入的准确度。然后使用弹幕情感分析模型中的嵌入模块将文本从词换成字并输出具有时间特征的融合向量,从而解决弹幕结构复杂的问题,减少网络词汇对语义的影响,使得模型能够更好地学习弹幕地隐含语义,优化了模型进行弹幕分析地性能。其次,通过双向长短期记忆模型BiLSTM和注意力机制进一步获取弹幕数据的深层特征,充分考虑了文本和时间两种因素。最后通过分类器对弹幕的情感类型进行精确分类。相较于现有弹幕分析方法,本发明专利技术的弹幕情感分析方法有效提升了弹幕情感分析的准确率,具有较强的应用性。具有较强的应用性。具有较强的应用性。

Emotional analysis method of barrage based on time characteristics

【技术实现步骤摘要】
基于时间特征的弹幕情感分析方法


[0001]本专利技术属于文本分类领域,具体涉及一种基于时间特征的弹幕情感分析方法。

技术介绍

[0002]文本情感分析是文本分类的一种,是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程,其已经构成一个具有影响力的研究领域,并在工业界得到了广泛的应用。情感分析的需求来源于个人、企业和政府对产品、营销和政策的兴趣。近年来,创新和商业的需求不断推动着情感分析的研究发展。
[0003]随着互联网和社交媒体的发展,人们对娱乐消费的需求越来越高。根据中国互联网络发展状况统计报告,网络视频和衍生产品已经成为网络娱乐消费领域的支柱产业。弹幕作为一种视频评论手段,由最初的亚文化小团体逐渐进入了大众的视野,为视频用户提供了一种新的在线交流的方法。目前,包括Bilibili、腾讯、虎牙、爱奇艺、斗鱼和央视影音等都在视频中加入了弹幕。对弹幕进行情感分析可以帮助平台了解用户的心理和特征,得到更多有效的信息反馈,协助后台进行相关视频和广告的推荐,也可以帮助创作者改进发布的视频。然而,弹幕与一般的微博、商品评论和影评等不同,结构多样,构成复杂,省略的信息较多,是一种特殊的短文本,目前的方法对弹幕进行情感分析效果有限,准确率较低。因此,有必要提供一种新的方法来对弹幕的情感分析进行改进。

技术实现思路

[0004]为解决上述问题,提供一种准确率高的弹幕情感分析方法,本专利技术采用了如下技术方案:
[0005]本专利技术提供了一种基于时间特征的弹幕情感分析方法,其特征在于,包括以下步骤:步骤S1,对待分析的原始弹幕数据进行预处理,并提取弹幕文本和弹幕发送时间;步骤S2,基于输入层、嵌入模块、神经网络模块和分类模块构建并训练得到弹幕情感分析模型;步骤S3,将弹幕文本和弹幕发送时间输入至弹幕情感分析模型中,由嵌入模块进行向量化处理分别得到文本向量和时间向量,并拼接得到融合向量;步骤S4,将融合向量作为神经网络模块的输入,获取弹幕句子表达式;步骤S5,由分类模块中的softmax分类器计算弹幕句子表达式的文本标签的类别概率,得到待分析的原始弹幕数据的情感分类的分析结果。
[0006]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,文本预处理包括分词、去除停用词、以及清除特殊字符和标点符号。
[0007]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,嵌入模块具有文本信息处理子模块、时间信息处理子模块以及融合子模块,文本向量为文本信息处理子模块基于word2vec模型对弹幕文本进行向量化处理得到,该处理过程为:设定每一条弹幕含有n个词,将每个词都转换成其one

hot向量的形式x
i
=(x1,x2…
x
n
),然后通过嵌入矩阵W
e
得到x
i
的嵌入向量表达形式,通过将每个词的嵌入向量进行拼接得到文本向量的表达式S
c

[0008]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,时间向量为时间信息处理子模块基于word2vec模型对弹幕发送时间进行向量化处理得到,该处理过程为:设定每一条弹幕所处的时间长度有n秒,将每一秒都转化成其one

hot向量的形式x
i
=(x1,x2…
x
n
),然后通过嵌入矩阵W
e
得到x
i
的嵌入向量表达形式,通过将每秒的嵌入向量进行拼接得到时间向量的表达式S
t

[0009]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,融合子模块将文本向量和时间向量拼接起来得到融合向量,即:
[0010]S=S
c
+S
t
[0011]式中,S为融合向量,S
c
为文本向量,S
t
为时间向量。
[0012]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,神经网络模块包括一个双向长短期记忆模型BiLSTM和一个注意力机制层,BiLSTM由两个反向的长短期记忆模型LSTM构成。
[0013]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,弹幕句子表达式的获取过程如下:将融合向量作为BiLSTM的输入,设定向前LSTM在t时刻的状态为h
t1
,向后LSTM在t时刻的状态为h
t2
,整个神经网络在t时刻的状态为h
t
,根据下式求得h
t

[0014]h
t
=h
t1
+h
t2

[0015]将BiLSTM的输出h
t
作为注意力机制层的输入,利用注意力机制层对权重重新分配后加权求和得到弹幕句子表达式r
i
,计算公式如下:
[0016]m
i
=tanh(h
t
)
[0017]p
i
=softmax(Wmi)
[0018]r
i
=h
t
*p
i

[0019]在本专利技术提供了一种基于时间特征的弹幕情感分析方法中,还可以具有这样的特征:其中,弹幕情感分析模型的训练为:采集原始弹幕数据并进行预处理,得到训练用数据集,将训练用数据集输入至初始模型中,采用Adam优化器对该初始模型进行优化训练,直至初始模型的预测效果达到预定标准就停止训练,得到训练好的弹幕情感分析模型。
[0020]专利技术作用与效果
[0021]根据本专利技术的基于时间特征的弹幕情感分析方法,首先对原始弹幕数据进行了分词、去除停用词等文本预处理,来提高嵌入的准确度。然后使用弹幕情感分析模型中的嵌入模块将文本从词换成字并输出具有时间特征的融合向量,从而解决弹幕结构复杂的问题,减少网络词汇对语义的影响,使得模型能够更好地学习弹幕地隐含语义,优化了模型进行弹幕分析地性能。其次,通过双向长短期记忆模型BiLSTM和注意力机制进一步获取弹幕数据的深层特征,充分考虑了文本和时间两种因素。最后通过分类器对弹幕的情感类型进行精确分类。相较于现有弹幕分析方法,本专利技术的弹幕情感分析方法有效提升了弹幕情感分析的准确率,具有较强的应用性。
附图说明
[0022]图1是本专利技术实施例的基于时间特征的弹幕情感分析方法的流程示意图;以及
[0023]图2是本专利技术实施例中弹幕情感分析模型的结构示意图。
具体实施方式
[0024]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本专利技术基于时间特征的弹幕情感分析方法作具体阐述。
...

【技术保护点】

【技术特征摘要】
1.一种基于时间特征的弹幕情感分析方法,其特征在于,包括以下步骤:步骤S1,对待分析的原始弹幕数据进行文本预处理,并提取弹幕文本和弹幕发送时间;步骤S2,基于输入层、嵌入模块、神经网络模块和分类模块构建并训练得到弹幕情感分析模型;步骤S3,将所述弹幕文本和所述弹幕发送时间输入至所述弹幕情感分析模型中,由所述嵌入模块进行向量化处理分别得到文本向量和时间向量,并拼接得到具有时间特征的融合向量;步骤S4,将所述融合向量作为所述神经网络模块的输入,获取弹幕句子表达式;步骤S5,由所述分类模块中的softmax分类器计算弹幕句子表达式的文本标签的类别概率,得到所述待分析的原始弹幕数据的情感分类的分析结果。2.根据权利要求1所述的基于时间特征的弹幕情感分析方法,其特征在于:其中,所述文本预处理包括分词、去除停用词、以及清除特殊字符和标点符号。3.根据权利要求1所述的基于时间特征的弹幕情感分析方法,其特征在于:其中,所述嵌入模块具有文本信息处理子模块、时间信息处理子模块以及融合子模块,所述文本向量为所述文本信息处理子模块基于word2vec模型对所述弹幕文本进行向量化处理得到,该处理过程为:设定每一条弹幕含有n个词,将每个词都转换成其one

hot向量的形式x
i
=(x1,x2…
x
n
),然后通过嵌入矩阵W
e
得到x
i
的嵌入向量表达形式,通过将每个词的嵌入向量进行拼接得到所述文本向量。4.根据权利要求3所述的基于时间特征的弹幕情感分析方法,其特征在于:其中,所述时间向量为所述时间信息处理子模块基于所述word2vec模型对所述弹幕发送时间进行向量化处理得到,该处理过程为:设定每一条弹幕所处的时间长度有n秒,将每一秒都转化成其one

hot向量的形式x
i
=(x1,x2…
x
n
),然后通过嵌入矩阵W
e
得到x
i
的嵌入向量表达形式,通过...

【专利技术属性】
技术研发人员:牟雪峰李海明
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1