一种带背景描述的企业情感分析方法技术

技术编号:22218979 阅读:20 留言:0更新日期:2019-09-30 01:17
本发明专利技术公开了一种带背景描述的企业情感分析方法,属于大数据技术领域,包括对新闻信息进行预处理,使用CBOW结构的word2vec模型对摘要和公司名相关的文本信息进行预训练得到相应的词向量,将带背景描述的文本表示使用多个不同卷积核提取特征,池化后将不同特征进行拼接,将拼接后的特征通过情感分析分类器计算各情感分类的概率,得到带背景描述的情感分析结果,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明专利技术不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。

A Method of Enterprise Emotion Analysis with Background Description

【技术实现步骤摘要】
一种带背景描述的企业情感分析方法
本专利技术属于大数据
,尤其涉及一种带背景描述的企业情感分析方法。
技术介绍
情感分析是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展。自2000年初以来,情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。对于企业来说,通过情感分析,可以挖掘企业产品在各个维度的优劣,从而明确如何改进产品。现在主要的情感分析的方法包括以下两种:基于情感词典的传统方法,基于情感词典的方法,先对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。该方法有如下几个缺点:1.精度不高,语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确;2.新词发现,对于新的情感词,词典不一定能够覆盖;3.词典构建难,基于词典的情感分类,核心在于情感词典,而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,在分析外语方面会有很大限制。基于评分的机器学习算法,使用贝叶斯,支持向量机以及神经网络对文本进行分类,最终使用评分系统输出情感标签,需要事先设定一个阈值范围,若经过评分系统输出的结果大于该范围,则评判为正向情感,若小于该范围,则判为负向情感,若在该阈值范围内,则判定为中立情感,这种做法最大的缺点是不灵活,算法存在一定的缺陷,同一类的情感数据的特征可能相差很大,把不同程度上的特征转化为指定的阈值范围,会出现一定程度上的偏差,导致最终情感分析的结果不准确。
技术实现思路
本专利技术的目的是提供一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题。为实现上述目的,本专利技术采用如下技术方案:一种带背景描述的企业情感分析方法,包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p);步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。优选的,在执行步骤4时,对公司名相关的文本信息使用自注意力机制,通过计算自注意力系数学习得到句法层面的文本表示;将对摘要的表示和句法层面的文本表示进行叠加,得到带背景描述的文本表示。优选的,在执行步骤3时,情感标签包括正向情感Pos、负向情感Neg和中立情感Neu。优选的,在执行步骤5时,对摘要的词向量使用Positionembedding方法叠加位置信息。本专利技术所述的一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本专利技术不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。附图说明图1是本专利技术的总流程图;图2是本专利技术的步骤2到步骤6的流程图;图3是本专利技术整体模型结构图。具体实施方式如图1-图3所示的一种带背景描述的企业情感分析方法,包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;本实施例的具体实施方法为:建立一个文本窗口,设置窗口大小为100,相关正文就是在公司名出现位置的前100个和后100个词之前出现的文本,这一段文本代表了具有特定公司背景的描述,结合摘要,能使情感分析更加准确设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p);使用以上公式是因为位置p+k的向量可以表示成位置p的向量的线性变换,如下为sin和cos公式的变换关系:sin(α+β)=sinαcosβ+cosβsinβ;cos(α+β)=cosαcosβ-sinβsinβ;这提供了表达相对位置信息的可能性。步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。如图3所示,其中abstract为摘要,text为相关文本,wordembedding为词向量,positionembedding为位置向量,selfattent本文档来自技高网
...

【技术保护点】
1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:

【技术特征摘要】
1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p);步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;步骤6:将向量化后的相关...

【专利技术属性】
技术研发人员:顾凌云严涵王洪阳
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1