基于浅层句法分析的情感评价单元抽取方法技术

技术编号:19511329 阅读:56 留言:0更新日期:2018-11-21 07:48
本发明专利技术涉及一种基于浅层句法分析的情感评价单元抽取方法,包括:步骤1)采用基于CRF的浅层句法分析对用户评论进行处理,识别出产品特征和评价词;步骤2)对用户评论中的产品特征和评价词进行组合,从而获得最终的情感评价单元。本发明专利技术提供的基于浅层句法分析的情感评价单元抽取方法,采用浅层句法分析的方法,充分考虑了名词以及名词块都有可能是产品特征的情况,建立了产品特征映射表,统一了某些公共特征的表述,并且在分词和词性标注的时候加入一些新词、网络用语到分词系统中,抽取效果好,抽取结果的正确率和召回率高,可以很好地满足实际应用的需要。

【技术实现步骤摘要】
基于浅层句法分析的情感评价单元抽取方法
本专利技术属于文本处理
,具体涉及一种基于浅层句法分析的情感评价单元抽取方法。
技术介绍
随着web2.0的发展,越来越多的人愿意参与到互联网之中。据2016年1月22日,CNNIC发布的统计报告显示,截至2015年12月,中国网民规模达6.88亿,网购用户规模达到了4.13亿,同比增长14.3%。随着越来越多的人参与到互联网之中,互联网上产生了大量带有用户情感的产品评论。分析出产品评论中的情感倾向性,具有重要价值。生产厂商可以根据用户喜好,有针对性的改进产品,用户可以做出更加合理的购买决策。产品评论中的情感倾向性是由产品特征和评价词共同来决定的,抽取出情感评价单元,是进行细粒化情感分析的重要环节,吸引了众多研究者的关注。Bloom等人首先提出了情感评价单元这一概念。称搭配<产品特征;评价词>为情感评价单元。抽取情感评价单元实际上包含了两部任务:1,抽取产品特征和评价词;2,识别产品特征和评价词之间的修饰关系。现有技术中常用的方法有:第一类:首先提取出产品特征,然后把离产品特征最近的形容词作为评价词,进而提取出情感评价单元;第二类:选取以产品特征为中心,在长度为K的范围内选取评价词;第三类:依靠句法分析构建模板或者制定规则的方法。前两类方法的缺陷在于主观性太强,忽视了其他形容词作为评价词的可能性,第三类方法的缺陷在于需要大量人工参与,而且依存句法分析在分析复杂句式的时候有很大的局限性;另外,由于用户评论语言口语化、网络化严重,现有技术中采用完全句法分析方法抽取情感评价单元的效果不好,最近的一些机器学习的研究方法,注重对产品特征和评价词之间修饰关系的抽取,而忽视了对产品特征和评价词本身的识别。上述这些方法的缺陷导致现有技术的情感评价单元抽取效果不佳,正确率和召回率都不高。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于浅层句法分析的情感评价单元抽取方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种基于浅层句法分析的情感评价单元抽取方法,包括:步骤1)采用基于CRF的浅层句法分析对用户评论进行处理,识别出产品特征和评价词;步骤2)对用户评论中的产品特征和评价词进行组合,从而获得最终的情感评价单元。进一步地,步骤1)包括:采用CRF模型中的线性链状结构,在对情感标签的元素进行识别时,输入的观察序列,即经过分词的产品评论X={x1,x2,x3,……,xn},经过计算输出概率最大的标注序列y={y1,y2,….yn},计算公式为:Z(x)是归化因子,计算公式为:Z(X)=exp(∑∑λkfk(yi-1,yi,X,i));其中,X是观察序列,Y是与之对应的标注序列,λ是训练过程中产生的权值,fk(yi-1,yi,X,i)是从位置i到i-1的转移特征函数,每个特征函f表示为观察序列的实数值特征集合中的一个元素;采用字一级的标注,符号B、I、O分别代表组块的开始、内部、非组块,为了区别名词块、形容词块、动词块文本定义具体的标注集如下:进一步地,步骤1)包括:采用分词系统对用户评价进行分词和二级词性标注;采用Unigram类型的模板来筛选特征,每个模板由%x[row,col]来指定输入数据中的一个token;row代表当前token的行偏移,col代表列偏移。进一步地,模板窗口的长度为3。进一步地,产品特征由名词和名词块组成,评价词由形容词、动词、形容词块、动词块组成。进一步地,步骤2)包括:将搭配<产品特征;评价词>作为情感评价单元。进一步地,所述情感评价单元抽取方法具体为:对用户评论进行分句,根据比较明显的分句符号对用户评论进行分句,用分号、破折号、句号、感叹号对用户评论进行分句;对分句后的用户评论进行产品特征和评价词识别,过滤掉不含产品特征和评价词的评论语句;对产品特征和评价词进行组合,将搭配<产品特征;评价词>作为情感评价单元;抽取情感评价单元,用“酒店整体”作为评论中的产品特征。进一步地,情感评价单元用二元组表示为:Sentiment-label=<p;s>;p代表用户评论中的产品特征,s代表对评价词。进一步地,描述产品特征的产品特征映射表为:本专利技术提供的基于浅层句法分析的情感评价单元抽取方法,采用浅层句法分析的方法,充分考虑了名词以及名词块都有可能是产品特征的情况,建立了产品特征映射表,统一了某些公共特征的表述,并且在分词和词性标注的时候加入一些新词、网络用语到分词系统中,抽取效果好,抽取结果的正确率和召回率高,可以很好地满足实际应用的需要。附图说明图1为CRF模型中的线性链状结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。基于浅层句法分析的情感评价单元抽取方法,包括:首先,采用基于CRF的浅层句法分析对用户评论进行处理,准确地识别出产品特征和评价词;然后,对用户评论中的产品特征和评价词进行组合,从而获得最终的情感评价单元。浅层句法分析不需要像完全句法分析那样识别出句子中的全部句法成分及其关系,只需要识别出句子中结构较为简单的独立成分,例如名词块、动词块、形容词块等,浅层句法分析又叫组块分析或语块分析。当下用于浅层句法分析的机器学习算法主要有:支持向量机(SVM)、隐马尔科夫模型、最大熵等。条件随机场模型(ConditionalRandomField,CRF)是一种图模型,是一种用来标注和划分序列结构数据的概率化结构模型。用该模型对用户评价进行产品特征和评价词识别时,能考虑到产品特征和评价词的各个方面,不需要条件独立性假设,因此具有独特优势。本专利技术采用的是CRF模型中的线性链状结构来解决问题,如图1所示。在对情感标签的元素进行识别时,输入的观察序列,即经过分词的产品评论X={x1,x2,x3,……,xn},经过计算输出概率最大的标注序列y={y1,y2,….yn},计算公式如下:Z(x)是归化因子,是为了保证所有的概率P都小于1,计算公式如下:Z(X)=exp(∑∑λkfk(yi-1,yi,X,i))(2);在以上公式中,X就是观察序列,Y是与之对应的标注序列,λ是训练过程中产生的权值,fk(yi-1,yi,X,i)是从位置i到i-1的转移特征函数,每个特征函f表示为观察序列的实数值特征集合中的一个元素。条件随机场是一种有监督机器学习方法,为了将产品评论中语块的识别转化为序列化标注问题,就需要为各个类别的语块定义一个合适的语块类别标记,这样才能实现功能块的自动识别。本专利技术需要识别的语块主要有名词块、动词块、形容词块,本专利技术采用字一级的标注,符号B、I、O分别代表组块的开始、内部、非组块,为了区别名词块、形容词块、动词块文本定义了以下具体的标注集:表2语块类别描述集语块成分标记标记内容描述np名词块vp动词块ap形容词块例如,从互联网上抓取的一条本文档来自技高网
...

【技术保护点】
1.一种基于浅层句法分析的情感评价单元抽取方法,其特征在于,包括:步骤1)采用基于CRF的浅层句法分析对用户评论进行处理,识别出产品特征和评价词;步骤2)对用户评论中的产品特征和评价词进行组合,从而获得最终的情感评价单元。

【技术特征摘要】
1.一种基于浅层句法分析的情感评价单元抽取方法,其特征在于,包括:步骤1)采用基于CRF的浅层句法分析对用户评论进行处理,识别出产品特征和评价词;步骤2)对用户评论中的产品特征和评价词进行组合,从而获得最终的情感评价单元。2.根据权利要求1所述的情感评价单元抽取方法,其特征在于,步骤1)包括:采用CRF模型中的线性链状结构,在对情感标签的元素进行识别时,输入的观察序列,即经过分词的产品评论X={x1,x2,x3,……,xn},经过计算输出概率最大的标注序列y={y1,y2,….yn},计算公式为:Z(x)是归化因子,计算公式为:Z(X)=exp(∑∑λkfk(yi-1,yi,X,i));采用字一级的标注,符号B、I、O分别代表组块的开始、内部、非组块,为了区别名词块、形容词块、动词块文本定义具体的标注集如下:3.根据权利要求1-2所述的情感评价单元抽取方法,其特征在于,步骤1)包括:采用分词系统对用户评价进行分词和二级词性标注;采用Unigram类型的模板来筛选特征,每个模板由%x[row,col]来指定输入数据中的一个token;row代表当前token的行偏移,col代表列偏移。4.根据权利要求1-3所述的情感评价单元抽取方法,其...

【专利技术属性】
技术研发人员:吕学强董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1