【技术实现步骤摘要】
电商平台商品用户评价情感倾向分类方法
[0001]本申请涉及一种网络购物平台商品评价分析方法,特别涉及一种电商平台商品用户评价情感倾向分类方法,属于网购大数据处理
技术介绍
[0002]随着社会经济和互联网的快速发展,网上购物已成为人们生活中重要的一部分,每个消费者都作为信息制造者参与到信息爆炸式增长的互联网中。对于拥有海量商品的电商平台, 获取商品的评价情感倾向具有重要意义和作用,商家可以根据商品用户评价情感倾向了解用户总体上对产品的满意度,从中获取商业先机,而潜在购买者也会将此作为是否购买此商品的重要参考。而对于海量商品,以及每个商品数量巨大的评价信息,要靠人工去分类几乎是不可能的,因此为了提高用户体验,方便商家和消费者,需要一个快速且正确率高的方法去分析商品的情感倾向。
[0003]情感分析是对具有情感倾向的主观性文本进行分析和预测。通过自然语言处理,语言学和文本分析来分析人们的意见倾向,用于从在线购物和社交媒体平台的评价信息中提取和分析主观信息。分析的数据量化了公众对某些产品的情感倾向,如积极、消极、中性,即通常所指的正面情感、负面情感和中性情感。情感分析至关重要,它可以帮助了解客户喜欢或不喜欢的商品。如果想改进商品,改变营销策略,通过定期查看客户对商品的情感倾向,可以更积极主动的了解市场变化的动态。
[0004]对于在线购物商品用户评价有以下性质:一是数据获取相对容易,通过爬虫软件可以轻松获取大量数据;二是数据多样性,在线购物中的评价信息来自不同领域,在线商品的种类各不相同;三是数 ...
【技术保护点】
【技术特征摘要】
1.电商平台商品用户评价情感倾向分类方法,其特征在于,通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向:首先对评价数据进行前置处理,采用TF
‑
IDF算法得到每个词的权重,对词向量进行加权处理,然后聚合学习W2D2vec特征改进商品用户评价情感分析模型,并进一步优化得到基于深度多级学习的商品用户评价情感分析方法,提高商品情感分析模型的分类性能;P1
‑
商品用户评价信息前置处理:首先对评价数据去重,包括单条评价中重复的数据和语料集中重复的评价,然后对评价数据去噪,如去除垃圾评价信息和无效字符,最后对评价数据进行主客观分类,将得到的主观性评价作为本申请实验的数据集;P2
‑
聚合学习W2D2vec特征改进商品用户评价情感分析,包括:主观评价数据分词和去停用词处理、训练Word2vec模型提取特征、基于TF
‑
IDF特征权重的Word2vec特征表示、基于投票的聚合学习模型;采用采用大量中文语料训练的Word2vec模型训练前置处理后的评价数据,得到评价信息的词向量,接着采用TF
‑
IDF算法对词向量进行加权,从而得到每个词在文本中的重要程度,最后采用基于投票的聚合学习模型进行分类P3
‑
基于深度多级学习的商品用户评价情感分析:采用1D卷积作为模型第一层,处理输入的三维矩阵,接着分别采用最大下采样层、辍落层、LSTM层、门槛循环层处理上一层输入的数据,最后根据输出层的结果确定评价的情感倾向。2.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,深度多级学习商品评价情感分析方法:输入:三维矩阵(x,y,z),x代表每条评价数据,y代表每条评价数据中的词,z代表每个词的向量;输出:评价数据的情感倾向类别R;第1步:采用已经训练好的Word2vec模型训练词向量,并对词向量进行TF
‑
IDF加权处理,得到模型的三维输入矩阵(x,y,z);第2步:模型第一层采用1D卷积层来处理输入的三维矩阵,输出处理后的三维矩阵;第3步:采用最大下采样层对卷积层输出的三维矩阵进行池化处理,得到一个新的三维矩阵,采用辍落层对池化后的三维矩阵进行处理,防止数据过拟合;第4步:采用LSTM层对辍落层输出的三维矩阵进行处理,得到一个新的三维矩阵;第5步:采用门槛循环单元层处理LSTM层输出的三维矩阵,输出二维矩阵;第6步:采用全链接层将二维矩阵中句子的向量由多维度转为一维;第7步:在激活层采用sigmoid函数,对全链接层输出的二维矩阵进行处理,得到商品评价数据的情感分类结果。3.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,商品用户评价信息前置处理:搜集电商平台上的商品用户评价信息作为语料进行分析,包含正向情感和负向情感两类数据信息;步骤一:评价数据去重;步骤二:评价数据去噪:在语料集中要对评价数据进行清洗,去除无效数据,一是去除垃圾评价数据,二是清洗评价数据中的非中文语料,三是清洗评价数据中的无效字符;步骤三:评价数据主客观分类:首先提取关联特征,然后采用机器学习算法训练语料,得到分类模型,最后进行数据的分类;将得到的数据分为训练数据和测试数据,训练数据要
进行人工分类标注,标注为主观评价数据和客观评价数据,然后提取训练数据的各种关联特征,构成特征向量,输入机器学习模型中进行训练,得到分类器,对测试语料集进行分类,得到分类后的主观性评价数据;只有主观性评价才存在用户的情感倾向,从数据集中提取出用户的主观性评价。4.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,主观评价数据分词和去停用词处理:采用结巴分词Python库对数据进行分词,将正负语料分词后分别转换为二维矩阵的形式,每一行都是一条评价数据分词后的数据;本申请的停用词库联合百度停用词表与哈工大停用词库去重后得到,然后将去停用词后的正、负类评价数据的矩阵分别保存为pos_review.pkl和neg_review.pkl文件,采用这些数据时直接导入pkl文件得到数据。5.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,训练Word2vec模型提取特征:训练Word2vec模型采用从搜狗实验室下载的全网新闻语料数据,基于大量的中文语料训练准确的Word2vec模型;从搜狗新闻语料数据中提取出content部分的数据,并将所有文件的数据全部整合到Word2vec_data.cvs文件中,然后保存在本地,当需要训练Word2vec模型时,从本地读取Word2vec_data.cvs文件,采用skip
‑
gram方法进行训练,得到训练好的Word2vec模型,以一种C语言可以解析的方式保存为Word2vec_data.model.bin文件,接下来就根据训练好的Word2vec模型将主观性评价数据转换成词向量,在对评价数据进行情感分类时,针对的是一整条评价数据,获得每一条评价数据的向量,每一条评价数据都是由很多词构成,将一条评价中每个词的向量相加,然后求平均值得到一条评价数据的向量,将得到的每条评价数据的向量作为其特征。6.根据权利要求1所述电商平台商品用户评价情感倾向分类方法,其特征在于,基于TF
‑
IDF特征权重的Word2vec特征表示:采用TF
‑
IDF算法来计算词向量的权重,对词向量进行加权操作;有评价数据集J,其中J
i
(i=1,2,...,m),得到每条评价中每个分词的特征向量,则n维特征向量集表示如下:C={x1,x2,...,x
n
},i∈n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1对于每条评价中的分词,首先计算分词在所在评价中出现的词频TF,然后计算这个词在整个评价集中的反文档频率IDF,词频TF的计算式如下:其中,f(w,J
i
)代表分词w在所在评价中出现的总次数,是此评价中分词的总个数,分词w的反文档频率IDF的计算式如下:其中,m为评价数据的总数,y
w
为评价数据集中出现w的评价数,为了,在式3中设置一个常数0.3保证平滑,当在某个评价中,还要设置一个常数,以保证分母不会为零;
所以,特征权重的计算式如下:其中,是做归一化处理;对于评价集J
i
中评价数据的特征向量如下表示:其中,c
w
表示分词w的词向量,sum(J
i
)表示该条评价分词个数;采用TF
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。