一种基于混合模型的文本情感分类方法技术

技术编号：24574607 阅读：37 留言：0更新日期：2020-06-21 00:12

一种基于混合模型的文本情感分类方法属于计算机软件领域。该方法主要包含数据处理层、机器学习处理层、CNN处理层、LSTM‑Attention处理层、自适应决策层。待分类数据经过机器学习处理层、CNN处理层和LSTM‑Attention处理层分别处理，最后将其处理结果一同输入到自适应决策层中，自适应决策层根据不同处理层以往的分类结果自适应调整各层结果所占的权重，从而得到最终的分类结果。相比单一的机器学习和单一的深度学习方法，该方法处理效果明显，并且结果具有良好的可解释性，应用前景广泛。

A text emotion classification method based on hybrid model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合模型的文本情感分类方法
本专利技术设计一种基于卷积神经网络、循环神经网络、注意力机制的文本情感分类方法，属于计算机软件领域。
技术介绍
在当今社交网络环境中，网民可以通过新闻跟帖、微博、贴吧、论坛等多种形式，针对某一热点事件发表个人观点，表达自己的情感倾向性。如果通过情感分析技术，从海量在线评论文本中获取网民的情感倾向，无论是对政府部门有效地进行舆情监控，还是其他相关团体从中提取有价值的信息，都有非常重要的现实意义。因此，这一类自然语言处理问题已引起研究者的普遍关注。目前常用的文本情感分类方法包括基于词典的情感分类、基于传统机器学习的情感分类和基于深度学习的分类方法。前两种分类方法对人工先验知识要求较高，需要人工提取特征和构建情感词典等，处理效果较为理想，但过程繁琐。后一种由深度学习自动提取特征，处理过程简便，但是结果不具有可解释性，效果也差一些。综上所述，当下需要一种处理结果简便，具有效果良好且可解释性的文本情感分类方法。
技术实现思路
本专利技术的内容为：①提出了一种基于混合模型的文本情感分类方法，该模型能够很好的融合传统机器学习情感分类和深度学习情感分类方法，分类效果良好，并且具有可解释性。②提出了一种高效的自适应决策方法，根据多个分类器的决策结果及历史表现进行决策判定。③对相关模型和判断方法进行了测试，验证了其有效性。本专利技术采用深度学习技术卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取数据隐藏...

【技术保护点】
1.一种基于混合模型的文本情感分类方法，其特征在于，包括如下步骤：/n步骤1.对原始数据进行预处理，将文本数据转换为文本向量：包含如下几步：/n1.1.加载原始文本数据data；/n1.2.对原始文本进行分词；/n1.3.依据上一步的分词词频进行编号；/n1.4.将每个样本中的每个词转换为数字列表；/n1.5.将每条样本划分为相同长度maxlen；/n1.6.得到预处理文本向量数据D；/n步骤2.机器学习处理层，采用机器学习的方法对原始文本数据data进行分类，具体步骤为：/n2.1.运用朴素贝叶斯对文本进行分类，得到其分类结果R1；/n2.2.运用梯度下降对文本进行分类，得到其分类结果R2；/n2.3.运用支持向量机对文本进行分类，得到其分类结果R3；/n步骤3.CNN处理层，包含采用三层卷积层、两层dropout层、一层最大池化以及两层全连接层，对步骤1得到的文本向量数据D进行隐藏高维特征提取，并依据这些特征对文本情感进行分类，具体网络结构为：/n3.1.第1层卷积层滤波器为256、卷积核为5、步长为1，激活函数relu；/n3.2.第2层dropout层，dropout值为0.1...

【技术特征摘要】
1.一种基于混合模型的文本情感分类方法，其特征在于，包括如下步骤：
步骤1.对原始数据进行预处理，将文本数据转换为文本向量：包含如下几步：
1.1.加载原始文本数据data；
1.2.对原始文本进行分词；
1.3.依据上一步的分词词频进行编号；
1.4.将每个样本中的每个词转换为数字列表；
1.5.将每条样本划分为相同长度maxlen；
1.6.得到预处理文本向量数据D；
步骤2.机器学习处理层，采用机器学习的方法对原始文本数据data进行分类，具体步骤为：
2.1.运用朴素贝叶斯对文本进行分类，得到其分类结果R1；
2.2.运用梯度下降对文本进行分类，得到其分类结果R2；
2.3.运用支持向量机对文本进行分类，得到其分类结果R3；
步骤3.CNN处理层，包含采用三层卷积层、两层dropout层、一层最大池化以及两层全连接层，对步骤1得到的文本向量数据D进行隐藏高维特征提取，并依据这些特征对文本情感进行分类，具体网络结构为：
3.1.第1层卷积层滤波器为256、卷积核为5、步长为1，激活函数relu；
3.2.第2层dropout层，dropout值为0.1；
3.3.第3层卷积层滤波器为128、卷积核为5、步长为1，激活函数relu；
3.4.第4层dropout层，dropout值为0.1；
3.5.第5层卷积层滤波器为64、卷积核为5、步长为1、激活函数relu；
3.6.第6层最大池化层池化核为3、步长为3；
3.7.第7层Flatten层，展平数据；
3.8.第8层全连接层神经元个数为128；
3.9.第9层全连接层神经元个数为1，激活函数sigmoid，得到分类结果R4；
步骤4.LSTM-Attention处理层，对步骤1得到的文本向量数据D采用带有注意力机制的LSTM网络进行时间序列特征提取，并依据这些特征对文本情感进行分类，其过程为：
4.1.计算D中每条文本向量的实际长度；
4.2.将数据加载到LSTM-Attention处理；
4.3.输出分类结果R5；
步骤5.自适应决策层，对步骤2的结果R1，R2，R3，步骤3的结果R4，步骤4的结果R5自适应加权得到最终分类结果，具体步骤如下：
5.1.加载R1-R5；
5.2.初始化R1-R5的权重Wj向量；
5.3.开始拟合训练；
5.4.根据R1-R5的错误率更新Wj的值；
5.5.保存模型。

2.根据权利要求1所述的基于混合模型的文本情感分类方法，其特征在于：步骤4.1.中每条文本向量的实际长度，其计算方法为maxlen-count0，其中maxlen与步骤1.5中相同，count0为当前文本向量末尾0的个数；步骤4.2.中LSTM计算公式如(1.1)、(1.2)、(1.3)、(1.4...

【专利技术属性】
技术研发人员：王丹，余悦任，杜金莲，付利华，苏航，李童，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人