一种结合Doc2vec和卷积神经网络的情感分类方法技术

技术编号：13298236 阅读：52 留言：0更新日期：2016-07-09 16:17

本发明专利技术请求保护一种结合Doc2vec和卷积神经网络的情感分类方法，该方法将Doc2vec和CNN进行有效的结合。该结合方法对于特征的表示，不但考虑到了词与词之间的语义关系，并且解决了维数灾难，还考虑到了词与词之间的顺序问题。CNN可以通过学习一种深层的非线性的网络结构来弥补浅层特征学习方法的不足，采用分布式表示输入数据的表征，展现了强大的特征学习能力，特征提取和模式分类可以同时进行，CNN模型的稀疏连接和权重共享两个特点可以减少网络的训练参数，使神经网络结构变得更简单，适应性更强。结合Doc2vec和CNN来处理情感分类问题可显著提高情感分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于涉及情感分类方法领域，尤其涉及一种结合Doc2vec和卷积神经网络的情感分类方法。
技术介绍
情感分析是一种常见的自然语言处理(NLP)方法的应用，特别是在以提取文本的情感内容为目标的分类方法中。情感分类已经有很多有用的实践，比如企业分析消费者对产品的反馈信息，或者检测在线评论中的差评信息。常见的情感分类方法主要有支持向量机，最大熵以及随机游走等浅层学习方法。这些方法在建模的过程中使用的函数简单，计算方法也比较简单，容易实现而且计算量较小，在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制，同时对于复杂的分类问题，这些方法的泛化能力也在一定程度上受到制约。卷积神经网络(CNN)属于深层网络，深层网络可以通过学习一种深层的非线性的网络结构来弥补这一约束，深层网络采用分布式表示输入数据的表征，与此同时，深层网络也展现了它强大的特征学习能力，即其可以从少量的样本集中抓取到数据的本质特征。CNN不仅包含了深层网络的这些优点，并且可以特征提取和模式分类同时进行，而且CNN的模型有稀疏连接和权重共享这两个特点，可以减少网络的训练参数，使神经网络结构变得更简单，适应性更强。情感文本的向量表示一般有两种表达方式，One-hotRepresentation和DistributedRepresentation。One-hotRepresentation最大的问题是无法分析词与词之间的语义关系，此外这种方法...

【技术保护点】
一种结合Doc2vec和卷积神经网络的情感分类方法，其特征在于，包括以下步骤：步骤1：从网上搜集情感文本语料集，标记类别，将文本里的数据表示成一个句子，并将情感文本语料分为训练集语料和测试集语料；步骤2：从网上搜集情感词典，并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理，然后去除停用词；步骤3：采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料训练出词向量模型并得到文本向量；步骤4：将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情感分类模型；步骤5：将步骤3中的测试集语料的文本向量输入卷积神经网络CNN，根据步骤4中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。

【技术特征摘要】
1.一种结合Doc2vec和卷积神经网络的情感分类方法，其特征在于，包括以下步骤：
步骤1：从网上搜集情感文本语料集，标记类别，将文本里的数据表示成一个句子，并将
情感文本语料分为训练集语料和测试集语料；
步骤2：从网上搜集情感词典，并采用基于词典逆向最大匹配算法和统计分词策略相结
合的中文分词算法对步骤1中的训练集语料和测试集语料进行分词处理，然后去除停用词；
步骤3：采用Doc2vec对步骤2中分词处理并去除停用词后的训练集语料和测试集语料
训练出词向量模型并得到文本向量；
步骤4：将步骤3中的语料中的训练集语料的文本向量输入卷积神经网络CNN训练出情
感分类模型；
步骤5：将步骤3中的测试集语料的文本向量输入卷积神经网络CNN，根据步骤4中已经
训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
2.根据权利要求1所述的结合Doc2vec和卷积神经网络的情感分类方法，其特征在于，
所述步骤1进行标记类别采用人工标记类别，将情感表现为积极情绪的文本标签设定为1，
将情感表现为消极情绪的文本标签设定为2。并且去除文本的首尾空格。
3.根据权利要求1或2所述的结合Doc2vec和卷积神经网络的情感分类方法,，其特征在
于，所述步骤2的情感词典分为正面情感词词典和负面情感词词典，分词处理包括分级构造
分词词典，由核心词典和临时词典两部分构成分词词典集合；采用二级哈希结构存储构造
核心词典，选取情感词典作为临时词典加载的语料，分词词典初步构成后，分词系统进入步
骤3。
4.根据权利要求3所述的结合Doc2vec和卷积神经网络的情感分类方法,，其特征在于，
对情感文本进行分词时，如果临时词典中有新统计的词，该词的词频加一，否则将该新词重
新加入临时词典；累计词频后判断词频是否满足设定阈值，若满足则移到核心词典中，并在
临时词典中清空该词条。统计记录学习情感文本的数量，若大于预定值，则清空临时词典；
采用更新后的核...

【专利技术属性】
技术研发人员：唐贤伦，周冲，周家林，刘庆，张娜，张毅，郭飞，刘想德，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;85

全部详细技术资料下载我是这个专利的主人