一种结合Doc2vec和卷积神经网络的情感分类方法技术

技术编号:13298236 阅读:52 留言:0更新日期:2016-07-09 16:17
本发明专利技术请求保护一种结合Doc2vec和卷积神经网络的情感分类方法,该方法将Doc2vec和CNN进行有效的结合。该结合方法对于特征的表示,不但考虑到了词与词之间的语义关系,并且解决了维数灾难,还考虑到了词与词之间的顺序问题。CNN可以通过学习一种深层的非线性的网络结构来弥补浅层特征学习方法的不足,采用分布式表示输入数据的表征,展现了强大的特征学习能力,特征提取和模式分类可以同时进行,CNN模型的稀疏连接和权重共享两个特点可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。结合Doc2vec和CNN来处理情感分类问题可显著提高情感分类的准确率。

【技术实现步骤摘要】

本专利技术属于涉及情感分类方法领域,尤其涉及一种结合Doc2vec和卷积神经网络的情感分类方法
技术介绍
情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。情感分类已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息。常见的情感分类方法主要有支持向量机,最大熵以及随机游走等浅层学习方法。这些方法在建模的过程中使用的函数简单,计算方法也比较简单,容易实现而且计算量较小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题,这些方法的泛化能力也在一定程度上受到制约。卷积神经网络(CNN)属于深层网络,深层网络可以通过学习一种深层的非线性的网络结构来弥补这一约束,深层网络采用分布式表示输入数据的表征,与此同时,深层网络也展现了它强大的特征学习能力,即其可以从少量的样本集中抓取到数据的本质特征。CNN不仅包含了深层网络的这些优点,并且可以特征提取和模式分类同时进行,而且CNN的模型有稀疏连接和权重共享这两个特点,可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。情感文本的向量表示一般有两种表达方式,One-hotRepresentation和DistributedRepresentation。One-hotRepresentation最大的问题是无法分析词与词之间的语义关系,此外这种方法还容易发生维数灾难。DistributedRepresentation方法则很好地克服了这些缺点,其中word2vec就是DistributedRepresentation的典型代表。虽然word2vec很好的分析了词与词之间的语义关系并且解决了维数灾难问题,但是没有考虑到词与词之间的顺序问题,因此不同的句子可能会有相同的表示,从而导致误判率较高。Doc2vec跟word2vec很相似,Doc2vec在word2vec的模型的基础上增加了一个段落向量(ParagraphId)。Doc2vec不但考虑到了词与词之间的语义关系,并且解决了维数灾难,还考虑到了词与词之间的顺序问题。所以,相对于其它方法,结合Doc2vec和卷积神经网络来处理情感分类问题可显著提高情感分类的准确率。
技术实现思路
针对以上现有技术的不足,提出了一种可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强、可显著提高情感分类的准确率的结合Doc2vec和卷积神经网络的情感分类方法。。本专利技术的技术方案如下:一种结合Doc2vec和卷积神经网络的情感分类方法,,其包括以下步骤:步骤1:从网上搜集情感文本语料集,标记类别,将文本里的数据表示成一个句子,并将情感文本语料分为训练集语料和测试集语料;步骤2:从网上搜集情感词典,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理,然后去除停用词;步骤3:采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料训练出词向量模型并得到文本向量;步骤4:将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情感分类模型;步骤5:将步骤3中的测试集语料的文本向量输入卷积神经网络CNN,根据步骤4中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。进一步的,所述步骤1进行标记类别采用人工标记类别,将情感表现为积极情绪的文本标签设定为1,将情感表现为消极情绪的文本标签设定为2。并且去除文本的首尾空格。进一步的,所述步骤2的情感词典分为正面情感词词典和负面情感词词典,分词处理包括分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合;采用二级哈希结构存储构造核心词典,选取情感词典作为临时词典加载的语料,分词词典初步构成后,分词系统进入步骤3。进一步的,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条。统计记录学习情感文本的数量,若大于预定值,则清空临时词典;采用更新后的核心词典中的词条作为分词依据。进一步的,步骤3使用Doc2vec中基于HierarchicalSoftmax算法的PV-DM模型,将步骤2中处理好的的语料输入模型中,把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量,将所有文本向量和所有对应的词向量累加或者连接起来,作为输出层Softmax的输入。构建目标函数,在训练过程中保持文本向量不变,使用随机梯度上升法进行词向量更新,在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变,重新利用随机梯度上升法训练待预测的文本,得到最终的文本向量并将这些文本向量处理成可以使用CNN的数据格式。进一步的,所述步骤4具体为:首先构建完整的6层CNN网络,分别为文本向量层,卷积层,子采样层,卷积层,子采样层和全连接的softmax层;然后将步骤3中的语料中的训练集的文本向量输入到已经搭建好的卷积神经网络CNN模型中进行训练,训练分为两个阶段:首先是向前传播阶段,将样本输入卷积神经网络CNN网络,计算相应的实际输出Op;然后是向后传播阶段,计算出实际输出Op与相应的理想输出Yp的误差,再按极小化误差的方法反向传播调整权矩阵。经过两个阶段的训练后即得到训练好的情感分类模型。进一步的,所述步骤5具体为:将步骤3中的语料中的测试集的文本向量输入CNN,根据步骤4中已经训练好的模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1,即标签等于2,判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。本专利技术的优点及有益效果如下:本专利技术选用Doc2vec来表示特征,选用CNN来训练特征并完成分类。该两种方法相结合不仅解决了特征表示时词与词之间的语义关系问题,词与词之间的顺序问题和维数灾难问题,还考虑到了选用CNN来训练特征可以弥补浅层特征学习方法的不足。并且可以特征提取和模式分类同时进行,CNN模型的稀疏连接和权重共享两个特点可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。结合Doc2vec和CNN来处理情感分类问题可显著提高情感分类的准确率。附图说明图1是本专利技术提供优选实施例结合Doc2本文档来自技高网
...

【技术保护点】
一种结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,包括以下步骤:步骤1:从网上搜集情感文本语料集,标记类别,将文本里的数据表示成一个句子,并将情感文本语料分为训练集语料和测试集语料;步骤2:从网上搜集情感词典,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理,然后去除停用词;步骤3:采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料训练出词向量模型并得到文本向量;步骤4:将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情感分类模型;步骤5:将步骤3中的测试集语料的文本向量输入卷积神经网络CNN,根据步骤4中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。

【技术特征摘要】
1.一种结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,包括以下步骤:
步骤1:从网上搜集情感文本语料集,标记类别,将文本里的数据表示成一个句子,并将
情感文本语料分为训练集语料和测试集语料;
步骤2:从网上搜集情感词典,并采用基于词典逆向最大匹配算法和统计分词策略相结
合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理,然后去除停用词;
步骤3:采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料
训练出词向量模型并得到文本向量;
步骤4:将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情
感分类模型;
步骤5:将步骤3中的测试集语料的文本向量输入卷积神经网络CNN,根据步骤4中已经
训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
2.根据权利要求1所述的结合Doc2vec和卷积神经网络的情感分类方法,其特征在于,
所述步骤1进行标记类别采用人工标记类别,将情感表现为积极情绪的文本标签设定为1,
将情感表现为消极情绪的文本标签设定为2。并且去除文本的首尾空格。
3.根据权利要求1或2所述的结合Doc2vec和卷积神经网络的情感分类方法,,其特征在
于,所述步骤2的情感词典分为正面情感词词典和负面情感词词典,分词处理包括分级构造
分词词典,由核心词典和临时词典两部分构成分词词典集合;采用二级哈希结构存储构造
核心词典,选取情感词典作为临时词典加载的语料,分词词典初步构成后,分词系统进入步
骤3。
4.根据权利要求3所述的结合Doc2vec和卷积神经网络的情感分类方法,,其特征在于,
对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重
新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在
临时词典中清空该词条。统计记录学习情感文本的数量,若大于预定值,则清空临时词典;
采用更新后的核...

【专利技术属性】
技术研发人员:唐贤伦周冲周家林刘庆张娜张毅郭飞刘想德
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1