The present invention provides a method for searching based on emotional product reviews the theme, the present invention under the premise of ensuring the recall, according to the theme of product model, product evaluation object extraction, and according to the emotional tendency of emotion dictionary analysis product evaluation, sort the output, so as to get higher precision. The present invention uses the three tuple representation of the product object, the product evaluation phrase and the emotion tendency value to evaluate the product, which can express the affective tendency of different product evaluation more clearly. In addition, the collected page score from two aspects, emotional tendency and theme related degree and the evaluation of the product value, not only to better meet user needs but also product evaluation, emotional tendency of evaluation of interest, so as to improve the accuracy of search.
【技术实现步骤摘要】
本专利技术涉及一种基于情感倾向的产品评论主题搜索方法。
技术介绍
目前的很多搜索服务中,有一些针对不同用户的个性化的信息搜索服务,如基于用户行为分析的个性化搜索服务,对于不同用户的相同查询请求返回的查询结果也有所相同,即系统能够在一定程度上识别不同用户个性信息需求上的差别。另外目前的主题搜索中很少有对产品评价进行情感倾向性,仅仅只是搜索出相应产品的对应评价,但是搜索结果却无法对用户如何做选择进行较好地帮助。因此如何在搜索中,不仅搜索出相应产品的评价,还能对产品评价的情感倾向性进行分析即文本的情感分类,并对搜索结果进行排序成为产品评价主题搜索领域中许多学者的研究热点。近十年来对文本主题分类的研究已经比较深入,但是对文本情感分类的研究还处在一个较少。在文本情感倾向分类的研究中,文本中情感倾向词语的选择和抽取是整个分类过程的关键,而词语的情感倾向判别是篇章级情感倾向研究的基础。在很多主题元搜索方法中,对搜索结果一般采用提取特征向量的方法,然后采用夹角余弦算法,计算搜索结果与主题的相符合程度。但是特征向量是离散的,可能无法正确表达搜索结果文档,因此以此计算与主题的相似度就会不够准确,搜索结果的准确性就大大受到影响。
技术实现思路
本专利技术的目的在于提供一种基于情感倾向的产品评论主题搜索方法,能够在保证查全率的前提下,根据产品的主题模型,抽取产品评价对象,并根据情感词词典分析产品评价的情感倾向 ...
【技术保护点】
一种基于情感倾向的产品评论主题搜索方法,其特征在于,包括:建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向值;用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜索,搜索结果按照情感倾向性的降序排序。
【技术特征摘要】
1.一种基于情感倾向的产品评论主题搜索方法,其特征在于,包括:
建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;
对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行
处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的
相关度,高于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向
值;
用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜
索,搜索结果按照情感倾向性的降序排序。
2.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,建立各种产品的主题模型,包括:
主题模型采取三元组Topic(C,W,V)来表示,形成主题树结构,其中:C
表示产品对象;W表示产品评价短语;V表示产品评价的情感倾向值,C采用向
量空间模型(VSM)来表示,使用二元组Ci(Keyi,Weighti),其中,Keyi表示
关键词,Weighti表示关键词的权重,产品评价的情感倾向值V介于-1和1之
间,正数表示对产品的正面评价,且值越大,情感倾向越高;负数表示对产品
的负面评价,且值越小,负面情感倾向就越高。
3.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,对每个产品主题根据设定的种子网址进行爬行,包括:
对每个产品主题设置几个爬行的种子网址,从网络上采集相关网页。
4.如权利要求1所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品
主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计
算页面的产品评价的情感倾向值,包括:
提取网页的正文,并提取网页的正文的特征向量;
根据特征向量的夹角的余弦值来计算提取网页的相似度,去除重复的网
\t页;
从剩余的网页中抽取评价对象,根据所述评价对象计算与所述产品主题的
相关度;
抽取未丢弃网页中的产品评价短语;
据不同类型的产品评价短语分别计算其情感倾向值;
计算每个未丢弃网页的情感倾向值。
5.如权利要求4所述的基于情感倾向的产品评论主题搜索方法,其特征在
于,从剩余的网页中抽取评价对象,根据所述评价对象计算...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。