情感分析方法及装置制造方法及图纸

技术编号:15039428 阅读:95 留言:0更新日期:2017-04-05 13:10
本发明专利技术公开了一种情感分析方法及装置,涉及自然语言处理技术领域,通过本发明专利技术提高了情感分析的准确率。本发明专利技术的技术方案为:从目标文本中提取情感词序列,所述情感词序列中包括顺序提取的情感词及非语义词;生成与所述情感词序列对应的情感词序列向量;根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记;所述预置分类模型中存储有情感词序列向量与情感标记的对应关系;将所述获取的情感标记作为所述目标文本的情感分析结果。本发明专利技术主要用于分析目标文本的情感。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别是涉及一种情感分析方法及装置。
技术介绍
近些年来,情感分析技术已成为自然语言处理研究领域的热门话题,情感分析的目标是从文本中挖掘用户表达的观点以及情感极性,挖掘文本中情感倾向可用于帮助其他用户做决定。因此情感分析技术在自然语言处理研究领域得到了广大研究者的关注,具有很大的应用价值。目前,通过标记序列规则获取目标文本的情感倾向,即基于训练文本中每个句子的情感类别标记和训练文本的情感标记构成标记序列规则,最后根据这些标记序列规则分析目标文本的情感。但是,类别标记序列中的情感类别标记是由人工设置的,这在现在带标记的数据匮乏的现状下时不容易获得的,而在情感类别标记是有限甚至很少的情况下降会导致挖掘出的序列规则过少,从而降低情感分析的准确率。
技术实现思路
有鉴于此,本专利技术提供一种情感分析方法及装置,主要目的在于提高情感分析的准确率。依据本专利技术一个方面,提供了一种情感分析方法,包括:从目标文本中提取情感词序列,所述情感词序列中包括顺序提取的情感词及非语义词;生成与所述情感词序列对应的情感词序列向量;根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记;所述预置分类模型中存储有情感词序列向量与情感标记的对应关系;将所述获取的情感标记作为所述目标文本的情感分析结果。进一步地,所述方法还包括:获取所述目标文本的词特征向量;对所述目标文本的词特征向量及情感词序列向量进行融合得到所述目标文本的特征向量。具体的,所述根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记包括:根据预置分类模型获取与所述目标文本的特征向量对应的情感标记,所述预置分类模型中存储有特征向量与情感标记的对应关系。进一步地,所述预置分类模型采用下述方法设置:从训练文本中提取情感词序列;将所述训练文本的情感词序列与训练文本的情感标记的对应关系作为训练文本的情感词序列特征;根据所述训练文本的情感词序列特征训练所述预置分类模型。进一步地,所述根据所述训练文本的情感词序列特征训练所述预置分类模型之前,所述方法还包括:根据类序列规则CSR算法对所述情感词序列特征过滤。具体的,根据所述训练文本的情感词序列特征训练所述预置分类模型包括:根据词袋模型将所述训练文本的情感词序列转换成情感词序列向量;对所述训练文本的词特征向量及情感词序列向量进行融合得到所述目标文本的特征向量;通过各训练文本的特征向量及情感标记训练所述预置分类模型。依据本专利技术另一个方面,提供了一种情感分析装置,包括:提取单元,用于从目标文本中提取情感词序列,所述情感词序列中包括顺序提取的情感词及非语义词;生成单元,用于生成与所述情感词序列对应的情感词序列向量;获取单元,用于根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记;所述预置分类模型中存储有情感词序列向量与情感标记的对应关系;确定单元,用于将所述获取的情感标记作为所述目标文本的情感分析结果。进一步地,所述装置还包括:所述获取单元,还用于获取所述目标文本的词特征向量;融合单元,用于对所述目标文本的词特征向量及情感词序列向量进行融合得到所述目标文本的特征向量。所述获取单元,具体用于根据预置分类模型获取与所述目标文本的特征向量对应的情感标记,所述预置分类模型中存储有特征向量与情感标记的对应关系。进一步地,所述装置还包括:所述提取单元,还用于从训练文本中提取情感词序列;所述确定单元,还用于将所述训练文本的情感词序列与训练文本的情感标记的对应关系作为训练文本的情感词序列特征;训练单元,还用于根据所述训练文本的情感词序列特征训练所述预置分类模型。进一步地,所述方法还包括:过滤单元,用于根据类序列规则CSR算法对所述情感词序列特征过滤。具体的,所述训练单元包括;转换模块,用于根据词袋模型将所述训练文本的情感词序列转换成情感词序列向量;融合模块,用于对所述训练文本的词特征向量及情感词序列向量进行融合得到所述目标文本的特征向量;训练模块,用于通过各训练文本的特征向量及情感标记训练所述预置分类模型。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种情感分析方法及装置,首先从目标文本中提取情感词序列,然后生成与所述情感词序列对应的情感词序列向量,并根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记,最后将所述获取的情感标记作为所述目标文本的情感分析结果。与目前根据标记序列获取目标文本的情感倾向相比,本专利技术实施例将从目标文本中提取情感词序列转换成情感词序列向量,然后根据预置分类模型获取与目标文本的情感词序列向量对应的情感标记,最后将所述获取的情感标记作为所述目标文本的情感分析结果。由于本专利技术的情感词序列相比现有技术中的情感类别标记序列资源更容易获取,并且与之相比能够获取更多的信息,因此通过本专利技术实施例解决了现有类别标记序列中情感类别标记获取困难的问题,提高了情感分析的准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种情感分析方法流程图;图2示出了本专利技术实施例提供的一种情感分析装置的结构框图;图3示出了本专利技术实施例提供的另一种情感分析装置的结构框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种情感分析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。为了给出提高情感分析的准确率的实现方案,本专利技术实施例提供了一种情感分析方法及装置,以下结合说明书附图对本专利技术的优选实施例进行说明。本专利技术实施例提供了一种情感分析方法,如图1所示,具体步骤包括:101、从目标文本中提取情感词序列。其中,所述情感词序列中包括从目标文本中顺序提取的情感词及非语义词,非语义词是目标文本文档来自技高网...

【技术保护点】
一种情感分析方法,其特征在于,包括:从目标文本中提取情感词序列,所述情感词序列中包括顺序提取的情感词及非语义词;生成与所述情感词序列对应的情感词序列向量;根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记;所述预置分类模型中存储有情感词序列向量与情感标记的对应关系;将所述获取的情感标记作为所述目标文本的情感分析结果。

【技术特征摘要】
1.一种情感分析方法,其特征在于,包括:从目标文本中提取情感词序列,所述情感词序列中包括顺序提取的情感词及非语义词;生成与所述情感词序列对应的情感词序列向量;根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记;所述预置分类模型中存储有情感词序列向量与情感标记的对应关系;将所述获取的情感标记作为所述目标文本的情感分析结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标文本的词特征向量;对所述目标文本的词特征向量及情感词序列向量进行融合得到所述目标文本的特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据预置分类模型获取与所述目标文本的情感词序列向量对应的情感标记包括:根据预置分类模型获取与所述目标文本的特征向量对应的情感标记,所述预置分类模型中存储有特征向量与情感标记的对应关系。4.根据权利要求1或3所述的方法,其特征在于,所述预置分类模型采用下述方法设置:从训练文本中提取情感词序列;将所述训练文本的情感词序列与训练文本的情感标记的对应关系作为训练文本的情感词序列特征;根据所述训练文本的情感词序列特征训练所述预置分类模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练文本的情感词序列特征训练所述预置分类模型之前,所述方法还包括:根据类序列规则CSR算法对所述情感词序列特征过滤。6.根据权利要求4所述的方法,其特征在于,根据所述训练文本的情感词序列特征训练所述预置分类模型包括:...

【专利技术属性】
技术研发人员:王明强齐勇张明亮
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1