一种基于HowNet的短文本情感识别方法技术

技术编号:6183723 阅读:940 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于HowNet的短文本情感识别方法,包括以下步骤:(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。

【技术实现步骤摘要】

本专利技术涉及一种文本情感识别方法,主要涉及自然语言处理领域以及情感计算领域。
技术介绍
现阶段人机交互接口主要基于自然语言,而用于人机交互的文本都属于短文本。 短文本具有简洁、灵活,。因此对于文本得情感推理研究可以促进人机交互接口向着更智能的方向发展。同时对于文本的情感识别可以为其他形式的情感识别提供辅助作用,比如说语音及表情。PAD模型是Mehrabian和Russell提出的情感维度测量模型。该模型将情绪分为 愉悦度(Pleasure)——表示个体情感状态的正负特性,激活度(Arousal)——表示个体神经生理激活水平;优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想,同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。HowNet (知网)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。对于文本的情感识别方法目前主要有关键词定位法,词法关系法。对于关键词定位法对于包含情感词汇的句子有很好的识别效果,但对于无情感词汇的句子失效。而词法关系仅仅考虑了词汇表面的关系,未深入考虑其语义关系。而结合HowNet常识库以及PAD 模型可以解决文本情感识别缺乏语义基础及情感模型的问题。因此,提出一种精确、高效的文本情感识别方法具有很强的现实意义。
技术实现思路
本专利技术要解决的问题是提供一种准确识别短文本情感的方法。本专利技术提供了,包括以下步骤(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。在上述方法中步骤(1)中情感词典的建立如下所述从HowNet中的10类义原中选取下列类型义原Event |事件、Entity!实体、 Attribute属性、Attribute Value属性值、kcondary Feature次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为。而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数。除了 HowNet中的义原,叹词、拟声词、语气词也会纳入情感词典。对这些词汇,则根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如〈factor, category〉。情感词典的结构如下所示权利要求1.,包括以下步骤(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)从HowNet中的10类义原中选取下列类型义原Event事件、Entity I实体、Attribute属性、AttributeValue |属性值、Secondary Feature |次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为;而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数;对叹词、拟声词、语气词根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如〈factor,category)03.根据权利要求1所述的方法,其特征在于,所述步骤(2)利用ICTCLAS2011进行分词后,可以得到句子的基本成分,在这里选择其分词的形式为细粒度分词,并采用计算所二级标注。4.根据权利要求1所述的方法,其特征在于,所述步骤(3)对于形容词、动词、名词、代词进行着重处理,而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。5.根据权利要求1所述的方法,其特征在于,所述步骤(4)对义原的抽取规则如下 ERl 对于形容词,若在HowNet中的DEF项类型为Attribute Value属性值,则选取其DEF项的第三个义原作为该词汇的最终义原表示;ER2 对于名词,若在HowNet中的DEF项中出现*、#,则选择其后面的义原作为其最终义原;ER3 对于动词,若在HowNet中的DEF项第一个为BeUnable |无能,则对其赋予一个否定系数-1,然后在从其他义原中选取合适的义原;ER4 对于动词,若在HowNet中的DEF项中出现如下动态语义角色manner、patient、 content、isa、Resultlsa、ResultWhole、cause、StateFin、degree、purpose、state,则选择其后的义原作为最终义原,若同时出现多个动态语义角色,则优先选择排在前面的动态语义角色后面的义原。6.根据权利要求1所述的方法,其特征在于,所述步骤(5)对句子的处理规则如下 若句子中只有名词、代词、形容词,认为句子为主观句,即直接抒发个人的情感,这时选择形容词的PAD值作为主导,其对句子最终情感的影响系数为0. 7,其他词对句子最终情感影响系数分别为0. 3/其他词的个数;若句子中出现动词,则认为句子为评价句,即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头;首先,对形容词和名词的PAD值取平均数,得出名词的PAD值;而对于动词和名词,采取相与的规则产生句子的最终PAD值。全文摘要本专利技术提供了,包括以下步骤(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。文档编号G06F17/27GK102163191SQ20111012186公开日2011年8月24日 申请日期2011年5月11日 优先权日2011年5月11日专利技术者毛峡, 江琳 申请人:北京航空航天大学本文档来自技高网...

【技术保护点】
1.一种基于HowNet的短文本情感识别方法,包括以下步骤:(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛峡江琳
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1