一种带背景描述的企业情感分析方法技术

技术编号：22218979 阅读：20 留言：0更新日期：2019-09-30 01:17

本发明专利技术公开了一种带背景描述的企业情感分析方法，属于大数据技术领域，包括对新闻信息进行预处理，使用CBOW结构的word2vec模型对摘要和公司名相关的文本信息进行预训练得到相应的词向量，将带背景描述的文本表示使用多个不同卷积核提取特征，池化后将不同特征进行拼接，将拼接后的特征通过情感分析分类器计算各情感分类的概率，得到带背景描述的情感分析结果，解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息，并通过叠加背景描述信息，使对企业的情感分析结果更加正确的技术问题，本发明专利技术不用对整个文本进行情感分析，细致的分析出了文本中的每一个部分的感情，分析准确度高。

A Method of Enterprise Emotion Analysis with Background Description

全部详细技术资料下载

【技术实现步骤摘要】
一种带背景描述的企业情感分析方法
本专利技术属于大数据
，尤其涉及一种带背景描述的企业情感分析方法。
技术介绍
情感分析是人们的观点，情绪，评估对诸如产品，服务，组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体，例如产品评论，论坛讨论，微博，微信的快速发展。自2000年初以来，情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。对于企业来说，通过情感分析，可以挖掘企业产品在各个维度的优劣，从而明确如何改进产品。现在主要的情感分析的方法包括以下两种：基于情感词典的传统方法，基于情感词典的方法，先对文本进行分词和停用词处理等预处理，再利用先构建好的情感词典，对文本进行字符串匹配，从而挖掘正面和负面信息。该方法有如下几个缺点：1.精度不高，语言是一个高度复杂的东西，采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的，而且也难以做到准确；2.新词发现，对于新的情感词，词典不一定能够覆盖；3.词典构建难，基于词典的情感分类，核心在于情感词典，而情感词典的构建需要有较强的背景知识，需要对语言有较深刻的理解，在分析外语方面会有很大限制。基于评分的机器学习算法，使用贝叶斯，支持向量机以及神经网络对文本进行分类，最终使用评分系统输出情感标签，需要事先设定一个阈值范围，若经过评分系统输出的结果大于该范围，则评判为正向情感，若小于该范围，则判为负向情感，若在该阈值范围内，则判定为中立情感，这种做法最大的缺点是不灵活，算法存在一定的缺陷，同一类的情感数据的特征可能相差很大，把不同程度上的特征转化为指定的阈值范围，会出现一定程度上...

【技术保护点】
1.一种带背景描述的企业情感分析方法，其特征在于：包括如下步骤：步骤1：建立服务器集群，服务器集群从互联网中获取公开的新闻数据；在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块；步骤2：服务器集群从公开的新闻数据中获取新闻的文本信息；步骤3：数据预处理模块对文本信息进行预处理，去除无关情感的符号，提取文本信息中的公司名、摘要和相关文本；相关文本为与提取出的公司名相关的部分文本；设定情感标签，利用情感标签对文本信息进行标注，去除无关情感的符号；步骤4：word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练，将摘要和相关文本向量化，使用位置嵌入的方法计算词的位置向量，得到相应的词向量，将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，给每个词都引入一定的位置信息，使用以下两个公式计算位置向量：

【技术特征摘要】
1.一种带背景描述的企业情感分析方法，其特征在于：包括如下步骤：步骤1：建立服务器集群，服务器集群从互联网中获取公开的新闻数据；在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块；步骤2：服务器集群从公开的新闻数据中获取新闻的文本信息；步骤3：数据预处理模块对文本信息进行预处理，去除无关情感的符号，提取文本信息中的公司名、摘要和相关文本；相关文本为与提取出的公司名相关的部分文本；设定情感标签，利用情感标签对文本信息进行标注，去除无关情感的符号；步骤4：word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练，将摘要和相关文本向量化，使用位置嵌入的方法计算词的位置向量，得到相应的词向量，将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，给每个词都引入一定的位置信息，使用以下两个公式计算位置向量：其中，将id为p的位置映射为一个dpos维的位置向量，这个向量的第i个元素的数值就是位置向量PEi(p)；步骤5：使用位置嵌入方法，对摘要的文本中的所有词进行位置编号，每个编号对应一个词向量，为每一个词向量引入位置信息，得到对摘要的表示；步骤6：将向量化后的相关...

【专利技术属性】
技术研发人员：顾凌云，严涵，王洪阳，
申请(专利权)人：上海冰鉴信息科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人