一种评论数据的处理方法及处理装置制造方法及图纸

技术编号:15542464 阅读:214 留言:0更新日期:2017-06-05 11:24
本发明专利技术实施例公开了一种评论数据的处理方法及处理装置,涉及数据处理和数据挖掘领域,用于解决现有技术对评论语句的情感倾向的判断不够准确的问题。本发明专利技术实施例方法包括:获取情感倾向已知的样本评论语句;计算样本评论语句的句向量;利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;利用情感分类器对待测评论语句的情感倾向进行预测。

Method and device for processing comment data

The embodiment of the invention discloses a method for processing data review and processing equipment, involving data processing and data mining, to solve the existing technology of emotional tendencies review sentence judgment is not accurate enough problems. The embodiment of the method includes: sample review sentences for emotional tendency known; calculate the sample review sentence sentence vector; training of learning based classifiers using emotional tendency sample review sentence sentence vector and sample comment statements, get the emotion classifier; use emotion classifier to measure emotional tendencies review sentence prediction.

【技术实现步骤摘要】
一种评论数据的处理方法及处理装置
本专利技术涉及数据处理和数据挖掘领域,具体涉及一种评论数据的处理方法及处理装置。
技术介绍
随着信息技术的发展,互联网已经成为当今社会人们获取信息的重要渠道,互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台,因此也产生了大量的评论数据,比如微博中的评论数据、电子商务中关于商品的评论数据等。评论数据通常带有人们的情感倾向,情感倾向可认为是主体对某一客体主观存在的内心喜恶,比如可以理解为人们对某客体表达自身观点所持的态度是支持还是反对,是正面情感还是负面情感。例如“赞美”与“表扬”为褒义词,表达正面情感,而“龌龊”与“丑陋”为贬义词,表达负面情感。对评论数据的情感倾向进行分类标记,可以方便对大量的评论数据进行分析,帮助企业、政府、消费者等更好的把握用户的偏好,从而对自己的产品或者工作上的改进产生良好的指导作用。现有技术中,大多是基于情感词典或者分析评论语句的语法而得到评论语句的情感倾值,最后根据情感倾值判定评论语句的情感倾向。但是,简单的基于情感词典或者评论语句的语法,忽略了网络语言灵活性的特点,对评论语句的情感倾向的判断不够准确。
技术实现思路
本专利技术提供一种评论数据的处理方法及处理装置,用于解决现有技术对评论语句的情感倾向的判断不够准确。本专利技术实施例的一方面提供了一种评论数据的处理方法,包括:获取情感倾向已知的样本评论语句;计算所述样本评论语句的句向量;利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;利用所述情感分类器对待测评论语句的情感倾向进行预测。结合第一方面,在第一方面的第一种可能的实现方式中,所述情感倾向包括第一情感、第二情感和第三情感;所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所述待测评论语句的情感倾向为第三情感的第三概率。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,包括:判断所述样本评论语句的情感倾向是否为第一情感;若是,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;若否,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;利用所述第一情感模型对待测评论语句的情感倾向进行预测包括:利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第一集合的概率。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,利用所述情感分类器对待测评论语句的情感倾向进行预测包括:分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型为目标情感模型;确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式和第一方面的第三种可能的实现方式之中任意一种,在第一方面的第四种可能的实现方式中,所述计算所述样本评论语句的句向量包括:对所述样本评论语句进行分词,得到样本词集合;利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样本评论语句对应的样本词向量集合;计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。本专利技术实施例的第二方面提供了一种评论数据的处理装置,包括:获取模块,用于获取情感倾向已知的样本评论语句;计算模块,用于计算所述样本评论语句的句向量;训练模块,用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;预测模块,用于利用所述情感分类器对待测评论语句的情感倾向进行预测。结合第二方面,在第二方面的第一种可能的实现方式中,所述情感倾向包括第一情感、第二情感和第三情感;所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所述待测评论语句的情感倾向为第三情感的第三概率。结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述训练模块包括第一训练子模块,所述第一训练子模块用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,所述第一训练子模块包括:判断单元,用于判断所述样本评论语句的情感倾向是否为第一情感;第一添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向是第一情感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;第二添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向不是第一情感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;建模单元,用于利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;所述预测模块包括第一预测单元,用于利用所述第一情感模型对待测评论语句的情感倾向进行预测,所述第一预测单元包括:计算子单元,用于利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第一集合的概率。结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述预测模块包括:预测子模块,用于分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,所述预测单元包括所述第一预测子单元;第一确定子模块,用于确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型为目标情感模型;第二确定子模块,用于确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实现方式和第二方面的第三种可能的实现方式之中任意一种,在第二方面的第四种可能的实现方式中,所述计算模块包括:分词子模块,用于对所述样本评论语句进行分词,得到样本词集合;第一计算子模块,用于利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样本评论语句对应的样本词向量集合;第二计算子模块,用于计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术获取情感倾向已知的样本评论语句,计算所述样本评论语句的句向量,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器,并利用所述情感分类器对待测评论语句的情感倾向进行预测,本专利技术为基于大数据的情感倾本文档来自技高网...
一种评论数据的处理方法及处理装置

【技术保护点】
一种评论数据的处理方法,其特征在于,包括:获取情感倾向已知的样本评论语句;计算所述样本评论语句的句向量;利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;利用所述情感分类器对待测评论语句的情感倾向进行预测。

【技术特征摘要】
1.一种评论数据的处理方法,其特征在于,包括:获取情感倾向已知的样本评论语句;计算所述样本评论语句的句向量;利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;利用所述情感分类器对待测评论语句的情感倾向进行预测。2.根据权利要求1所述的评论数据的处理方法,其特征在于,所述情感倾向包括第一情感、第二情感和第三情感;所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所述待测评论语句的情感倾向为第三情感的第三概率。3.根据权利要求2所述的评论数据的处理方法,其特征在于,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,包括:判断所述样本评论语句的情感倾向是否为第一情感;若是,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;若否,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;利用所述第一情感模型对待测评论语句的情感倾向进行预测包括:利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第一集合的概率。4.根据权利要求3所述的评论数据的处理方法,其特征在于,利用所述情感分类器对待测评论语句的情感倾向进行预测包括:分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型为目标情感模型;确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。5.根据权利要求1至4中任一项所述的评论数据的处理方法,其特征在于,所述计算所述样本评论语句的句向量包括:对所述样本评论语句进行分词,得到样本词集合;利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样本评论语句对应的样本词向量集合;计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。6.一种评论数据的处理装置,其特征在于,包括:获取模块,用于获取情感倾向已知的样本评论语句;计算模块,用于计算所述样本评论语句的句向量;训练模块,用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进...

【专利技术属性】
技术研发人员:谭领城李梦婷李翔
申请(专利权)人:珠海市魅族科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1