本发明专利技术涉及自然语言处理,公开了一种词语极性的判别方法与系统。本发明专利技术的目的是实现对新词的情感极性的判别,通过选择具有一定时效性的语料库作为基础,获得与新词具有一定共现率的一组词组,并通过分析词组中每个词的极性,汇总得到该词组极性,从而最终综合判定该新词词汇的情感倾向。该技术可应用于观点挖掘、产品评价等方面,进而可进行相关信息(如商品、好友、新闻等等)的推荐。同时,本发明专利技术也提出了一种系统用于实现上述方法的功能。
【技术实现步骤摘要】
【专利摘要】本专利技术涉及自然语言处理,公开了一种词语极性的判别方法与系统。本专利技术的目的是实现对新词的情感极性的判别,通过选择具有一定时效性的语料库作为基础,获得与新词具有一定共现率的一组词组,并通过分析词组中每个词的极性,汇总得到该词组极性,从而最终综合判定该新词词汇的情感倾向。该技术可应用于观点挖掘、产品评价等方面,进而可进行相关信息(如商品、好友、新闻等等)的推荐。同时,本专利技术也提出了一种系统用于实现上述方法的功能。【专利说明】词语极性的判别方法和判别系统
本专利技术涉及对词语极性的判别,特别是新词的情感倾向判断。更具体的,本专利技术涉 及一种对新词的情感倾向检测的方法与系统。
技术介绍
随着SNS (Social Networking Services,社会性网络服务)不断流行,人们通过 微博、论坛等平台,对人物、事件、产品发布各种各样的观点。为了有效处理这些信息,发现 人们的态度意见,就需要进行文本情感分析。 然而,在个性化时代的今天,各种新词被不断创造,一些旧词被赋予新的含义,同 时伴随各种网络事件的爆发也使得很多专有词语如人名等不断涌现并被赋予了强烈的感 情色彩。如何来检测这些新词,或者新意词的情感倾向就成为把握舆论的客观问题。 为了解决上面提到的问题,有基于PMI的词语情感极性计算方法的现有技术:① 专利文献:一种情感词典构建方法及系统;②论文:基于Hownet和PMI 的词语情感极性计算,计算机工程,2012. 08。 上述公知技术主要采用PMI (点互信息)确定词的极性。该方法首先选取一些基 准词,这些基准词有褒义的,也有贬义的。通过计算新词与这些基准词在语料库中的共现概 率,确定新词的褒贬义倾向。假设基准褒义词为WordSetlHcommendatroyi, commendatro y2, ···, commendatroyN} WordSet2= {derogatoryj, derogatory2, ···, derogatory^ , 则对于某个词Word,基于PMI的词语极性S0_PMI (Word)为: 【权利要求】1. 一种词语极性的判别方法,其特征在于,包括: 语料库构建步骤,选取一定时间内网络文本信息作为语料库, 新词获取步骤,获取作为判别对象的新词, 共现词语收集步骤,基于语料库,得到与该新词的共现率大于阈值α的词语并组成词 语集合, 词语极性判别步骤,依次确定所述词语集合中每个词语的极性,由此判别该新词的极 性。2. 根据权利要求1所述的词语极性的判别方法,其特征在于, 设S为新词的情感倾向值,β为阈值,在所述词语极性判别步骤中,当| S | < β时, 判别该新词的极性为中性,当S> β时,判别该新词的极性为正性,当S< - β时,判别该 新词的极性为负性,即S与β满足下述关系式,其中,Pos{ Σ f}是所有正性词语的共现率之和,Neg{ Σ f}是所有负性词语的共现率 之和,Neu{ Σ f}是所有中性词语的共现率之和。3. 根据权利要求1所述的词语极性的判别方法,其特征在于, 在所述新词获取步骤中,由用户直接输入了新词作为判别对象。4. 根据权利要求3所述的词语极性的判别方法,其特征在于, 在共现词语获取步骤中,根据用户输入了的新词,从语料库中提取包含该新词的语料 资源,得到与该新词的共现率大于阈值α的词语并组成词语集合。5. 根据权利要求1所述的词语极性的判别方法,其特征在于, 在所述新词获取步骤中,从所述语料库中提取作为判别对象的新词。6. 根据权利要求1所述的词语极性的判别方法,其特征在于, 在所述词语极性判别步骤,对于所述词语集合中的每一个词语判断是否为其它新词, 如果不是则从情感词典中获取该词语的极性,如果是其它新词,则对该其它新词进行迭代 处理,并以Word-Pair的形式存储作为判别对象的新词和所述词语集合中的其它新词,如 果正处理的词语1已经存在于Word-Pair中,则将I从词语集合中删除。7. 根据权利要求1所述的词语极性的判别方法,其特征在于, 所述判别方法还包括情感词典维护步骤,将在词语极性判别步骤所判别的新词及其极 性增加到情感词典中。8. -种词语极性的判别系统,其特征在于,具有: 语料库构建模块,获取一定时间内网络文本信息作为语料库, 新词获取模块,获取作为判别对象的新词, 共现词语收集模块,基于语料库,计算得到与该新词共现率大于阈值α的词语组成词 语集合,以及 词语极性判别模块,依次确定所述词语集合中每个词语的极性,由此判别该新词的极 性。9.根据权利要求8所述的词语极性的判别系统,其特征在于, 还具有: 情感词典更新模块,将得到的新词及其极性增加到情感词典中,用户接口模块,接收用 户对系统进行的设置以及显示新词及其极性。【文档编号】G06F17/27GK104142913SQ201310165049【公开日】2014年11月12日 申请日期:2013年5月7日 优先权日:2013年5月7日 【专利技术者】张磊, 张玄, 尚磊 申请人:株式会社日立制作所本文档来自技高网...
【技术保护点】
一种词语极性的判别方法,其特征在于,包括:语料库构建步骤,选取一定时间内网络文本信息作为语料库,新词获取步骤,获取作为判别对象的新词,共现词语收集步骤,基于语料库,得到与该新词的共现率大于阈值α的词语并组成词语集合,词语极性判别步骤,依次确定所述词语集合中每个词语的极性,由此判别该新词的极性。
【技术特征摘要】
【专利技术属性】
技术研发人员:张磊,张玄,尚磊,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。