当前位置: 首页 > 专利查询>黄华专利>正文

电商平台商品用户评价情感倾向分类方法技术

技术编号:34692885 阅读:59 留言:0更新日期:2022-08-27 16:27
本申请创造性的提出一个快速且准确率高的模型去分析商品用户评价的情感倾向,通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向,首先对评价数据进行前置处理,采用TF

【技术实现步骤摘要】
电商平台商品用户评价情感倾向分类方法


[0001]本申请涉及一种网络购物平台商品评价分析方法,特别涉及一种电商平台商品用户评价情感倾向分类方法,属于网购大数据处理


技术介绍

[0002]随着社会经济和互联网的快速发展,网上购物已成为人们生活中重要的一部分,每个消费者都作为信息制造者参与到信息爆炸式增长的互联网中。对于拥有海量商品的电商平台, 获取商品的评价情感倾向具有重要意义和作用,商家可以根据商品用户评价情感倾向了解用户总体上对产品的满意度,从中获取商业先机,而潜在购买者也会将此作为是否购买此商品的重要参考。而对于海量商品,以及每个商品数量巨大的评价信息,要靠人工去分类几乎是不可能的,因此为了提高用户体验,方便商家和消费者,需要一个快速且正确率高的方法去分析商品的情感倾向。
[0003]情感分析是对具有情感倾向的主观性文本进行分析和预测。通过自然语言处理,语言学和文本分析来分析人们的意见倾向,用于从在线购物和社交媒体平台的评价信息中提取和分析主观信息。分析的数据量化了公众对某些产品的情感倾向,如积极、消极、中性,即通常所指的正面情感、负面情感和中性情感。情感分析至关重要,它可以帮助了解客户喜欢或不喜欢的商品。如果想改进商品,改变营销策略,通过定期查看客户对商品的情感倾向,可以更积极主动的了解市场变化的动态。
[0004]对于在线购物商品用户评价有以下性质:一是数据获取相对容易,通过爬虫软件可以轻松获取大量数据;二是数据多样性,在线购物中的评价信息来自不同领域,在线商品的种类各不相同;三是数据长度相对较短:一般在线购物用户评价都不会太大,所以暂不考虑段落和篇章的情感倾向分析。通过以上分析可知,在线商品用户评价情感分析对消费者和商家都有着重要的意义,所以评价情感分析有巨大的研究和应用价值。
[0005]当前文本情感倾向分析大部分都是基于英文的,直接将国外的相关成果应用到中文中, 分类效果不理想。
[0006]现有技术对词汇语义的倾向性判断,采用HowNet对中文词语语义进行情感倾向计算,文本的每个词语的语义倾向度量值由这个词与基准词的语义关联程度来决定。若词与贬义基准词关联密切,则词语偏向于贬义,若词与褒义基准词关联密切,则词偏向于褒义。但这种基于情感词典的方法,缺点还是过于依赖外部词典。
[0007]现有技术基于领域情感词的情感分析方法,采用通用情感词典进行情感分析时,对于不同特征的描述,同一个情感词可能表达出不同情感倾向和在特定领域不能识别领域专用情感词的两个问题。但在线评价数据很不规范,情感词和特征词抽取以及情感分析的过程都未考虑到文本的句法结构,仅仅考虑了特征粒度的情感倾向,未考虑中文连词,上下文因素对情感分类的影响。
[0008]综上所述,现有技术仍然存在若干问题和缺陷,电商平台商品用户评价情感倾向分类的关键技术难点有以下几点:
[0009](1)对于拥有海量商品的电商平台,获取商品的评价情感倾向具有重要意义和作用,但海量商品以及每个商品数量巨大的评价信息,靠人工去分类几乎是不可能的,基于情感词典的方法过于依赖外部词典。基于领域的情感分析方法,情感词和特征词抽取以及情感分析的过程都未考虑到文本的句法结构,仅仅考虑了特征粒度的情感倾向,未考虑中文连词,上下文因素对情感分类的影响,准确率不高。现有技术缺少一个快速且准确率高的模型去分析商品用户评价的情感倾向。现有的模型中,Word2vec模型会忽略词与词之间的顺序,而doc2vec 模型未考虑评价中单个词对文档影响程度的不同。现有技术没有考虑评论中每个词的权重, 缺少对词向量的加权处理,缺少聚合学习W2D2vec特征改进商品用户评价情感分析模型,导致模型的训练速度非常慢,其针对电商平台商品用户评价情感倾向分类性能较弱。
[0010](2)获取电商平台商品的评价情感倾向,商家可以了解用户总体上对产品的满意度,从中获取商业先机,而潜在购买者也会将此作为是否购买此商品的重要参考。但现有技术缺少一种专门针对中文电商平台商品用户评价情感倾向分类方法。面对海量的评论数据,缺少商品用户评价信息前置处理方法,缺少对评价数据去重、对评价数据去噪等一系列处理,无法对评价数据进行主客观分类,而主观性评价是数据集。现有技术缺少聚合学习W2D2vec特征改进商品用户评价情感分析,缺少基于聚合学习的Word2vec特征改进商品用户评价情感分析模型和基于TF

IDF特征权重的Word2vec特征表示算法,现有技术简单的对词向量取平均忽略词与词之间的排列顺序,未考虑到单个词对评价信息影响程度的差别,无法得到每个词在文本中的重要程度,缺少基于投票的聚合学习模型进行分类。现有技术缺少基于深度多级学习的商品用户评价情感分析。造成在对电商平台商品用户评价情感倾向分类时准确率、F值和 AUC都无法满足要求,失去了大规模应用的价值。
[0011](3)现有技术缺少针对电商平台商品用户评价特点设计的情感倾向分类方法,由于电商平台商品用户评价获取容易且数据量很大,现有技术对其分类的效率和精度都很难满足要求,在线购物中评价信息来自不同领域,在线商品的种类各不相同,数据具有多样性,现有技术缺少针对性的分类模型,导致商品用户评价情感分类的可靠性和速度较差。商品用户评价数据长度较短,现有技术缺少针对性不考虑段落和篇章的情感倾向分析的方法,导致模型训练速度非常慢,其分类性能也较弱,采用现有技术的模型,电商平台商品用户评价情感倾向分类的准确率、精准率、召回率、F值都不能满足要求,商家无法根据商品用户评价情感倾向了解用户对产品的满意度,无法获取商业先机,而潜在购买者也无法将此作为是否购买此商品的重要参考,这样的模型失去了实际利用价值。

技术实现思路

[0012]本申请创造性的提出一个快速且准确率高的模型去分析商品用户评价的情感倾向,解决了现有的模型中,Word2vec模型会忽略词与词之间的顺序,而doc2vec模型未考虑评价中单个词对文档影响程度的不同的问题。本申请通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向,首先对评价数据进行前置处理,采用TF

IDF算法得到每个词的权重,对词向量进行加权处理,然后聚合学习W2D2vec特征改进商品用户评价情感分析模型,并进一步优化得到基于深度多级学习的商品用户评价情感分析方法,提高商品情感分析模型的分类性能,电商平台商品用户评价情感倾向分类的准确率、F值和AUC
都有明显提高,商家可以根据得到的商品用户评价情感倾向了解用户总体上对产品的满意度,从中获取商业先机,而潜在购买者也会将此作为是否购买此商品的重要参考,具有巨大的实用价值。
[0013]为实现以上技术效果,本申请所采用的技术方案如下:
[0014]电商平台商品用户评价情感倾向分类方法,通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向:首先对评价数据进行前置处理,采用TF

IDF算法得到每个词的权重,对词向量进行加权处理,然后聚合学习W2D2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.电商平台商品用户评价情感倾向分类方法,其特征在于,通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向:首先对评价数据进行前置处理,采用TF

IDF算法得到每个词的权重,对词向量进行加权处理,然后聚合学习W2D2vec特征改进商品用户评价情感分析模型,并进一步优化得到基于深度多级学习的商品用户评价情感分析方法,提高商品情感分析模型的分类性能;P1

商品用户评价信息前置处理:首先对评价数据去重,包括单条评价中重复的数据和语料集中重复的评价,然后对评价数据去噪,如去除垃圾评价信息和无效字符,最后对评价数据进行主客观分类,将得到的主观性评价作为本申请实验的数据集;P2

聚合学习W2D2vec特征改进商品用户评价情感分析,包括:主观评价数据分词和去停用词处理、训练Word2vec模型提取特征、基于TF

IDF特征权重的Word2vec特征表示、基于投票的聚合学习模型;采用采用大量中文语料训练的Word2vec模型训练前置处理后的评价数据,得到评价信息的词向量,接着采用TF

IDF算法对词向量进行加权,从而得到每个词在文本中的重要程度,最后采用基于投票的聚合学习模型进行分类P3

基于深度多级学习的商品用户评价情感分析:采用1D卷积作为模型第一层,处理输入的三维矩阵,接着分别采用最大下采样层、辍落层、LSTM层、门槛循环层处理上一层输入的数据,最后根据输出层的结果确定评价的情感倾向。2.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,深度多级学习商品评价情感分析方法:输入:三维矩阵(x,y,z),x代表每条评价数据,y代表每条评价数据中的词,z代表每个词的向量;输出:评价数据的情感倾向类别R;第1步:采用已经训练好的Word2vec模型训练词向量,并对词向量进行TF

IDF加权处理,得到模型的三维输入矩阵(x,y,z);第2步:模型第一层采用1D卷积层来处理输入的三维矩阵,输出处理后的三维矩阵;第3步:采用最大下采样层对卷积层输出的三维矩阵进行池化处理,得到一个新的三维矩阵,采用辍落层对池化后的三维矩阵进行处理,防止数据过拟合;第4步:采用LSTM层对辍落层输出的三维矩阵进行处理,得到一个新的三维矩阵;第5步:采用门槛循环单元层处理LSTM层输出的三维矩阵,输出二维矩阵;第6步:采用全链接层将二维矩阵中句子的向量由多维度转为一维;第7步:在激活层采用sigmoid函数,对全链接层输出的二维矩阵进行处理,得到商品评价数据的情感分类结果。3.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,商品用户评价信息前置处理:搜集电商平台上的商品用户评价信息作为语料进行分析,包含正向情感和负向情感两类数据信息;步骤一:评价数据去重;步骤二:评价数据去噪:在语料集中要对评价数据进行清洗,去除无效数据,一是去除垃圾评价数据,二是清洗评价数据中的非中文语料,三是清洗评价数据中的无效字符;步骤三:评价数据主客观分类:首先提取关联特征,然后采用机器学习算法训练语料,得到分类模型,最后进行数据的分类;将得到的数据分为训练数据和测试数据,训练数据要
进行人工分类标注,标注为主观评价数据和客观评价数据,然后提取训练数据的各种关联特征,构成特征向量,输入机器学习模型中进行训练,得到分类器,对测试语料集进行分类,得到分类后的主观性评价数据;只有主观性评价才存在用户的情感倾向,从数据集中提取出用户的主观性评价。4.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,主观评价数据分词和去停用词处理:采用结巴分词Python库对数据进行分词,将正负语料分词后分别转换为二维矩阵的形式,每一行都是一条评价数据分词后的数据;本申请的停用词库联合百度停用词表与哈工大停用词库去重后得到,然后将去停用词后的正、负类评价数据的矩阵分别保存为pos_review.pkl和neg_review.pkl文件,采用这些数据时直接导入pkl文件得到数据。5.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,训练Word2vec模型提取特征:训练Word2vec模型采用从搜狗实验室下载的全网新闻语料数据,基于大量的中文语料训练准确的Word2vec模型;从搜狗新闻语料数据中提取出content部分的数据,并将所有文件的数据全部整合到Word2vec_data.cvs文件中,然后保存在本地,当需要训练Word2vec模型时,从本地读取Word2vec_data.cvs文件,采用skip

gram方法进行训练,得到训练好的Word2vec模型,以一种C语言可以解析的方式保存为Word2vec_data.model.bin文件,接下来就根据训练好的Word2vec模型将主观性评价数据转换成词向量,在对评价数据进行情感分类时,针对的是一整条评价数据,获得每一条评价数据的向量,每一条评价数据都是由很多词构成,将一条评价中每个词的向量相加,然后求平均值得到一条评价数据的向量,将得到的每条评价数据的向量作为其特征。6.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,基于TF

IDF特征权重的Word2vec特征表示:采用TF

IDF算法来计算词向量的权重,对词向量进行加权操作;有评价数据集J,其中J
i
(i=1,2,...,m),得到每条评价中每个分词的特征向量,则n维特征向量集表示如下:C={x1,x2,...,x
n
},i∈n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1对于每条评价中的分词,首先计算分词在所在评价中出现的词频TF,然后计算这个词在整个评价集中的反文档频率IDF,词频TF的计算式如下:其中,f(w,J
i
)代表分词w在所在评价中出现的总次数,是此评价中分词的总个数,分词w的反文档频率IDF的计算式如下:其中,m为评价数据的总数,y
w
为评价数据集中出现w的评价数,为了,在式3中设置一个常数0.3保证平滑,当在某个评价中,还要设置一个常数,以保证分母不会为零;
所以,特征权重的计算式如下:其中,是做归一化处理;对于评价集J
i
中评价数据的特征向量如下表示:其中,c
w
表示分词w的词向量,sum(J
i
)表示该条评价分词个数;采用TF
...

【专利技术属性】
技术研发人员:黄华
申请(专利权)人:黄华
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1