基于领域信息的半监督方面自动提取方法及其系统技术方案

技术编号:10176464 阅读:160 留言:0更新日期:2014-07-02 16:29
本发明专利技术公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明专利技术还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明专利技术可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明专利技术生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明专利技术具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。

【技术实现步骤摘要】
基于领域信息的半监督方面自动提取方法及其系统
本专利技术涉及一种商品观点挖掘技术,特别涉及一种基于领域信息的半监督方面自动提取方法及其系统。
技术介绍
随着电子商务的日益普及,越来越多的消费者都选择在网上购买商品和服务,尤其是近几年的蓬勃发展,不同模式(B2B、B2C、C3C等)、不同领域的各类型电子商务网站不断涌现,竞争不断加剧,用户需求也不断提高。生产和销售厂商总是试图及时获取公众或消费者对它们产品和服务的评价观点以提升产品质量及销量;而潜在的消费者在享受一种服务或购买一种产品之前,也想知道当前消费者的评价观点,以便选择真正适合自身的产品。通过对网络上大量的消费者评论反馈进行自动化的观点挖掘有助于解决上述问题,自动化的观点挖掘有以下三个方面的优势:首先,该方法总结的结果可以避免用手工阅卷中公司的人员变动使得评价结果出现不一致的现象。其次,该类系统可以近实时地从网上吸收大量的信息进行分析,这使得调查成本相对较低。第三,观点挖掘系统还可以处理多种语言的文档,这在传统方法中,对于一般人员是很难达到掌握多种语言的要求。然而,在当前主流的观点挖掘框架中,对于商品方面的提取往往是整个框架的瓶颈,因为该步骤需要将描述相同商品方面的不同用语进行语义归类。此问题是目前该领域的一个研究热点。当前商品方面提取的方法主要有:基于频繁字符串和基于主题模型(topicmodel)的挖掘算法。前者的主要不足是不能将描述同一商品方面的语义相关的用语进行归类,这导致该类方法无法用一种有结构的方式帮助用户快速、直观地了解商品的各个方面特征;对于后者,大部分方法采用的是无监督式的学习方式,这导致了以下的缺点与不足:1.模型生成方面的粒度和分类标准可能与人的认知习惯相悖,使得结果难以被理解。2.无监督模型每次生成的方面序列不能保持一个稳定的结构,导致难以在自动化的分析算法中应用。3.由于大部分评论都包含相同或相似的商品方面,这将使得基于单词共现性原理的主题模型方法难以将各个相关但不同的方面清晰地加以区分。因此,为了更有效地从商品评论中提取商品方面,需要引入一些先验知识来监督主题模型的学习过程,使得模型提取出来的商品方面分类更加清晰、更好地满足人们的认知习惯、并以一种较稳定的结构输出。
技术实现思路
本专利技术的首要目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取方法,该方法通过同时在文档层次和词层次对LDA模型进行标记学习,可以使得提取出来的各个商品方面的相关的信息描述得更加明确,方面之间的区别更加清晰。本专利技术的另一目的在于克服现有技术的缺点与不足,提供一种基于领域信息的半监督方面自动提取系统,该系统能与预先定义的方面种子词的结构保持一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预。本专利技术的首要目的通过下述技术方案实现:基于领域信息的半监督方面自动提取方法,包括:网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面较少的学习文档;细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更多的是用来描述“屏幕”方面;其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:第一种定义:m≠t,TFIDFm,i<TFIDFt,i;第二种定义:m≠t,(TFIDFm,i=TFIDFt,i)∩(TFm,i<TFt,i);第三种定义:TFIDFt,i=1;式中,TFIDFm,i表示单词wt在ci中的TFIDF(termfrequency–inversedocumentfrequency)值,TFt,i表示单词wt在ci中的词频(termfrequency),DF表示单词wt在所有方面类别中的总词频。所述的细粒度的标记LDA学习包括以下步骤:(5a)利用种子词集初始化词-主题相关性变量相关性变量的设置表达式如下:其中,表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制的影响强度,表示单词w是否种子方面集sk的指示函数,如果字符w属于种子方面集sk,则为1,否则为0,指示函数的定义如下:式中,sk表示种子方面集;(5b)初始化狄利克雷(Dirichlet)先验概率参数:对于文档d的文档-方面狄利克雷先验参数αd:其中,α=(α1,…,αK),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;(5c)初始化后验概率随机初始化单词在方面变量上的分布Z;(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:式中,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;(5e)根据分布变量Z,计算后验概率,所述后验概率包括和所述的计算公式如下:式中,表示方面k在文档d中的概率;所述的计算公式如下:式中,表示单词wi属于方面k的概率。所述的评论文档重组包括以下步骤:(4a)将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti;(4b)将包含了相同字符串标记的句子重新组合成新的文档。所述的网络信息爬取包括以下步骤:(1a)利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,所述的蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取,Scrapy爬虫引擎再请求蜘蛛提供种子URL;(1b)引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;(1c)调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;(1d)当网页被下载器下载完成以后,把本文档来自技高网
...
基于领域信息的半监督方面自动提取方法及其系统

【技术保护点】
基于领域信息的半监督方面自动提取方法,其特征在于,包括:网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面‑词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面‑词的约束关系是指在评论中,关键词具有特定的方面倾向;其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:第一种定义:&ForAll;wm∈pi,j,m≠t,TFIDFm,i<TFIDFt,i;]]>第二种定义:∀wm∈pi,j,m≠t,(TFIDFm,i=TFIDFt,i)∩(TFm,i<TFt,i);]]>第三种定义:∃wm∈pi,j,TFIDFt,i=1;]]>式中,TFIDFm,i表示单词wt在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频,DF表示单词wt在所有方面类别中的总词频。...

【技术特征摘要】
1.基于领域信息的半监督方面自动提取方法,其特征在于,包括:网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向;其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下三种定义中的任意一种定义:第一种定义:第二种定义:第三种定义:式中,TFIDFm,i表示单词wm在ci中的TFIDF值,TFt,i表示单词wt在ci中的词频;所述的细粒度的标记LDA学习包括以下步骤:(5a)利用种子词集初始化词-主题相关性变量相关性变量的设置表达式如下:其中,表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子用于控制的影响强度,表示单词w是否属于种子方面集sk的指示函数,如果单词w属于种子方面集sk,则为1,否则为0,所述指示函数的定义如下:式中,sk表示种子方面集;(5b)初始化狄利克雷先验概率参数:对于文档d的文档-方面狄利克雷先验参数αd:其中,α=(α1,…,αK),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;(5c)初始化后验概率随机初始化单词在方面变量上的分布Z;(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计算公式如下:式中,S为种子词集,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;(5e)计算后验概率,所述后验概率包括和所述的计算公式如下:式中,表示方面k在文档d中的概率;所述的计算公式如下:式中,表示单词wi属于方面k的概率。2.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的评论文档重组包括以下步骤:(4a)将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti;(4b)将包含了相同字符串标记的句子重新组合成新的文档。3.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的网络信息爬取包括以下步骤:(1a)利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,所述蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取出特定的URL用于后续爬取,Scrapy爬虫引擎再请求蜘蛛提供种子URL;(1b)引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度器获取下一个待爬取的请求;(1c)调度器将下一个待爬取的请求返回给引擎,引擎将下一个待爬取的请求发送到下载器;(1d)当网页被下载器下载完成以后,把响应内容发送到引擎;(1e)引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;(1f)蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;(1g)引擎将抓取到的项放入项目流水线,并向调度器发送请求;(1h)重复执行步骤(1b)至(1g),直到调度器中所有请求都完成为止,最后断开引擎与域之间的联系。4.根据权利要求1所述的基于领域信息的半监督方面自动提取方法,其特征在于,所述的信息预处理包括以下步骤:(2a)对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标注;对于中文,直接对评论进行分词及词性标注;(2b)对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特征词;所述的关键词提取包括以下步骤:(3a)对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处理;(3b)遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;(3c)遍历每个商品方面ci中每个描述短语pi,j的单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是,则将wt加入到方面类别ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面类别ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面类别ci的种子词集si;否则,将wt排除在方面ci的种子词集si之外。5.基于领域信息的半监督方面自动提取系统,其特征在于,包...

【专利技术属性】
技术研发人员:蔡毅王涛梁浩锋闵华清
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1