基于情感倾向的产品评论主题搜索方法技术

技术编号:14549791 阅读:69 留言:0更新日期:2017-02-04 22:52
本发明专利技术提供了一种基于情感倾向的产品评论主题搜索方法,本发明专利技术在保证查全率的前提下,根据产品的主题模型,抽取产品评价对象,并根据情感词词典分析产品评价的情感倾向性,排序后输出,从而得到更高的查准率。本发明专利技术对产品评价的主题采用产品对象、产品评价短语和情感倾向值的三元组表示,能够更清楚地表达不同产品评价的情感倾向。另外,对采集的页面从两个方面进行评分,与主题的相关度和产品评价的情感倾向值,更好地满足用户不仅对产品评价,还对评价的情感倾向感兴趣的需要,因此提高了搜索的准确性。

Topic search method of product reviews based on affective tendency

The present invention provides a method for searching based on emotional product reviews the theme, the present invention under the premise of ensuring the recall, according to the theme of product model, product evaluation object extraction, and according to the emotional tendency of emotion dictionary analysis product evaluation, sort the output, so as to get higher precision. The present invention uses the three tuple representation of the product object, the product evaluation phrase and the emotion tendency value to evaluate the product, which can express the affective tendency of different product evaluation more clearly. In addition, the collected page score from two aspects, emotional tendency and theme related degree and the evaluation of the product value, not only to better meet user needs but also product evaluation, emotional tendency of evaluation of interest, so as to improve the accuracy of search.

【技术实现步骤摘要】

本专利技术涉及一种基于情感倾向的产品评论主题搜索方法
技术介绍
目前的很多搜索服务中,有一些针对不同用户的个性化的信息搜索服务,如基于用户行为分析的个性化搜索服务,对于不同用户的相同查询请求返回的查询结果也有所相同,即系统能够在一定程度上识别不同用户个性信息需求上的差别。另外目前的主题搜索中很少有对产品评价进行情感倾向性,仅仅只是搜索出相应产品的对应评价,但是搜索结果却无法对用户如何做选择进行较好地帮助。因此如何在搜索中,不仅搜索出相应产品的评价,还能对产品评价的情感倾向性进行分析即文本的情感分类,并对搜索结果进行排序成为产品评价主题搜索领域中许多学者的研究热点。近十年来对文本主题分类的研究已经比较深入,但是对文本情感分类的研究还处在一个较少。在文本情感倾向分类的研究中,文本中情感倾向词语的选择和抽取是整个分类过程的关键,而词语的情感倾向判别是篇章级情感倾向研究的基础。在很多主题元搜索方法中,对搜索结果一般采用提取特征向量的方法,然后采用夹角余弦算法,计算搜索结果与主题的相符合程度。但是特征向量是离散的,可能无法正确表达搜索结果文档,因此以此计算与主题的相似度就会不够准确,搜索结果的准确性就大大受到影响。
技术实现思路
本专利技术的目的在于提供一种基于情感倾向的产品评论主题搜索方法,能够在保证查全率的前提下,根据产品的主题模型,抽取产品评价对象,并根据情感词词典分析产品评价的情感倾向性,排序后输出,从而得到更高的查准率。为解决上述问题,本专利技术提供一种基于情感倾向的产品评论主题搜索方法,包括:建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向值;用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜索,搜索结果按照情感倾向性的降序排序。进一步的,在上述方法中,建立各种产品的主题模型,包括:主题模型采取三元组Topic(C,W,V)来表示,形成主题树结构,其中:C表示产品对象;W表示产品评价短语;V表示产品评价的情感倾向值,C采用向量空间模型(VSM)来表示,使用二元组Ci(Keyi,Weighti),其中,Keyi表示关键词,Weighti表示关键词的权重,产品评价的情感倾向值V介于-1和1之间,正数表示对产品的正面评价,且值越大,情感倾向越高;负数表示对产品的负面评价,且值越小,负面情感倾向就越高。进一步的,在上述方法中,对每个产品主题根据设定的种子网址进行爬行,包括:对每个产品主题设置几个爬行的种子网址,从网络上采集相关网页。进一步的,在上述方法中,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向值,包括:提取网页的正文,并提取网页的正文的特征向量;根据特征向量的夹角的余弦值来计算提取网页的相似度,去除重复的网页;从剩余的网页中抽取评价对象,根据所述评价对象计算与所述产品主题的相关度;抽取未丢弃网页中的产品评价短语;据不同类型的产品评价短语分别计算其情感倾向值;计算每个未丢弃网页的情感倾向值。进一步的,在上述方法中,从剩余的网页中抽取评价对象,根据所述评价对象计算与所述产品主题的相关度,包括:对剩余的网页中的文本进行分词,根据分词的词性标注的出现规则抽取候选评价对象;从召回率的角度出发,尽可能多的收集剩余的网页中评价对象的词性规则;网页采用产品对象及关系的特征向量来表示,产品主题的各个子类的概念也是特征向量,根据向量空间模型,两特征向量夹角的余弦值表示它们的相关度,由此计算出一个网页与主题的相关度,并记录下来;根据设定的相关度阈值,将低于相关度阈值的网页丢弃。进一步的,在上述方法中,抽取未丢弃网页中的产品评价短语,包括:根据情感词词典,以情感词为中心,通过所述评价对象、程度词和否定词的修饰成分来识别评价短语。进一步的,在上述方法中,根据情感词词典,以情感词为中心,通过所述评价对象、程度词和否定词的修饰成分来识别评价短语的步骤中,根据情感词、否定词、程度词及其他成分,将产品评价短语划分为5类。进一步的,在上述方法中,计算每个未丢弃网页的情感倾向值,包括:通过每个未丢弃网页的各评价短语的权值之和,来判断每个未丢弃网页的情感倾向性。进一步的,在上述方法中,通过每个未丢弃网页的各评价短语的权值之和中,通过公式计算每个未丢弃网页的各评价短语的权值之和,其中,WS(CT)表示一个未丢弃网页中评价短语的情感倾向值,Document表示一个未丢弃网页的情感倾向值,若Document大于0,该文本为正面评价;若Document小于0,则该文本为负面评价。进一步的,在上述方法中,用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜索,搜索结果按照情感倾向性的降序排序,包括:用户输入关键字后,在选定的产品主题中进行搜索;根据用户选择的主题及关键字与采集到的网页进行匹配,然后根据与产品主题的相关性的高低及网页的情感倾向值,按照情感倾向性的降序排序显示出相应的网页。与现有技术相比,本专利技术在保证查全率的前提下,根据产品的主题模型,抽取产品评价对象,并根据情感词词典分析产品评价的情感倾向性,排序后输出,从而得到更高的查准率。本专利技术对产品评价的主题采用产品对象、产品评价短语和情感倾向值的三元组表示,能够更清楚地表达不同产品评价的情感倾向。另外,对采集的页面从两个方面进行评分,与主题的相关度和产品评价的情感倾向值,更好地满足用户不仅对产品评价,还对评价的情感倾向感兴趣的需要,因此提高了搜索的准确性。附图说明图1是本专利技术一实施例的基于情感倾向的产品评论主题搜索方法的流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术提供一种基于情感倾向的产品评论主题搜索方法,包括:步骤S1,建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;步骤S2,对每个产品主题根据设定的种子网址进行爬行,对爬行采集到本文档来自技高网...

【技术保护点】
一种基于情感倾向的产品评论主题搜索方法,其特征在于,包括:建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向值;用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜索,搜索结果按照情感倾向性的降序排序。

【技术特征摘要】
1.一种基于情感倾向的产品评论主题搜索方法,其特征在于,包括:
建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;
对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行
处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的
相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向
值;
用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜
索,搜索结果按照情感倾向性的降序排序。
2.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,建立各种产品的主题模型,包括:
主题模型采取三元组Topic(C,W,V)来表示,形成主题树结构,其中:C
表示产品对象;W表示产品评价短语;V表示产品评价的情感倾向值,C采用向
量空间模型(VSM)来表示,使用二元组Ci(Keyi,Weighti),其中,Keyi表示
关键词,Weighti表示关键词的权重,产品评价的情感倾向值V介于-1和1之
间,正数表示对产品的正面评价,且值越大,情感倾向越高;负数表示对产品
的负面评价,且值越小,负面情感倾向就越高。
3.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,对每个产品主题根据设定的种子网址进行爬行,包括:
对每个产品主题设置几个爬行的种子网址,从网络上采集相关网页。
4.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品
主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计
算页面的产品评价的情感倾向值,包括:
提取网页的正文,并提取网页的正文的特征向量;
根据特征向量的夹角的余弦值来计算提取网页的相似度,去除重复的网

\t页;
从剩余的网页中抽取评价对象,根据所述评价对象计算与所述产品主题的
相关度;
抽取未丢弃网页中的产品评价短语;
据不同类型的产品评价短语分别计算其情感倾向值;
计算每个未丢弃网页的情感倾向值。
5.如权利要求4所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,从剩余的网页中抽取评价对象,根据所述评价对象计算...

【专利技术属性】
技术研发人员:闫俊英
申请(专利权)人:上海电机学院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1