一种基于语义的弱监督微博多情感词典扩充方法技术

技术编号:17265346 阅读:35 留言:0更新日期:2018-02-14 12:49
本发明专利技术公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明专利技术方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。

A semantic based weak supervised micro-blog multi emotion dictionary expansion method

The invention discloses a semantic micro-blog weakly supervised sentiment dictionary expansion method based on, including: the establishment of candidate seed dictionary; through word frequency weighting and entropy weight of candidate seed emotional words filtering; word2vec algorithm to obtain the candidate emotional words, and through statistical method validation; rule methods complement sentimentdictionary. The method of the invention effectively expand emotional dictionary, and reduce the number of emotional sentiment word dictionary imbalance.

【技术实现步骤摘要】
一种基于语义的弱监督微博多情感词典扩充方法
本专利技术属于文本信息处理领域,具体是涉及一种基于语义的弱监督微博多情感词典扩充方法。
技术介绍
微博是一个全球范围的用户信息分享平台,用户通过发布文本或图片的形式实现信息的分享和传播。近年来微博网站高速发展,中文微博以“新浪”微博、“腾讯”微博为代表,英文微博以“Twitter”、“Facebook”为代表。微博的发展加速了信息的传播速度。但随着信息获取便利的同时,人们从海量数据中获取知识的效率也在降低。传统文本的分类已经不能满足人们对网络即时信息的分类要求。如何根据微博内容自动判断人们所要表达的情感,从而快速获取不同情感属性的微博,就成为了一个重要的问题。微博情感自动分类技术可以帮助相关公司企业及政府部门有效地收集社会热点事件的情感反馈,分析微博中的不同观点,为制定策略提供了一个高效可靠的依据。情感分类中一个基本问题就是情感词获取,即情感词典的建立。情感词典的质量直接影响到分类的最终效果,而很多情感词典针对性弱且情感词数量不能满足分类要求。使用人工标注的情感词典不仅费时费力,而且无法解决海量微博中的文本不规则性、语义表达丰富性等问题。在情感词典构建中,多情感词典构建更是其中的难点。不同于正负情感词典,人的情感种类丰富,如何定义情感的类型,如何确定词的情感类型,如何解决情感词的不平衡问题等是多情感词典构建亟需解决的问题。专利技术人通过改进word2vec算法,建立了可自动获取且针对性较强的微博多情感词典,并根据网络情感表达方式,建立了情感词典扩充规则。生成的情感词典减少了人工标注费时费力的问题,有效提高了情感分类精度和效率。
技术实现思路
本专利技术针对多分类情感词的扩充问题,提出了一种基于语义的弱监督微博多情感词典扩充方法及系统。主要内容包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。实验结果表明,该方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。多情感类型被定义为:开心、悲伤、生气、害怕、厌恶、喜欢、惊讶7种。每种情感在多情感词典中都有一组情感词相对应。建立多情感词典的种子情感词必须要求覆盖面广、情感倾向准确,而且必须保证不同情感类型情感词的平衡性。为实现上述目的,本专利技术采用如下的技术方案一种基于语义的弱监督微博多情感词典扩充方法,包括以下步骤:步骤(1)微博语料获取和预处理首先获取中文微博语料,然后对微博语料进行必要的预处理,包括繁体简体转换、分词及词性标注、去除外国词语和多余空格。预处理后的文本只保留汉字、词性标记及标点,记作G。步骤(2)候选种子情感词获取及扩充词获取由于在大规模语料中很难自动获取符合要求的种子情感词,因此必须在获取候选种子情感词后,再经过统计验证。步骤(2.1)过滤微博语料G中词性,只保留G中的名词、形容词、动词,过滤后的微博语料记为G’。步骤(2.2)统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,人工选取情感词作为候选情感词,p为词频排名百分比阈值。其中每类情感选取K个情感词作为候选情感种子。得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词。步骤(2.3)对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词。情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn))。扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。步骤(3)候选种子情感词验证对多情感词典F2中候选种子词进行验证,去除不适合作为种子的情感词。步骤(3.1)-步骤(3.3)基于情感扩充词R(w),使用统计方法反馈验证候选种子词是否适合作为种子词。步骤(3.1)统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:SFW(w)是候选种子w的词频权重值,f(ci)是候选种子词w中第i个扩充词ci出现的词频,v(w,ci)是候选种子w与其扩充词ci的语义相关值,m为扩充词数量。步骤(3.2)计算F2中候选种子词的熵权重SHW。熵权重用于体现情感词所包含的信息量大小,熵值越大,情感词的强度越高,计算公式(2)(3)如下:SHW(w)是候选种子w的熵权重值,p(si)是候选种子w中第i个扩充词ci出现的概率,f(si)是候选种子s中第i个扩充词出现的词频,m为扩充词数量。步骤(3.3)在所有候选种子词中,选取满足条件SFW>α,SHW>β的词作为种子词。这里α,β为设定的阈值。F2中移除不满足条件的候选种子词及该词的对应扩充词,所得词典构成F3={w′1,R(w′1),w′2,R(w′2),…,w′h,R(w′h)}。步骤(4)情感扩充词的验证和情感类型判断由于利用word2vec算法得到的扩充词与种子词体现的是语义相关性,这些扩充词仍然存在与种子词表达情感不一致的情况。因此需要对扩充词进行验证。情感扩充词验证按如下步骤进行:步骤(4.1)统计每个扩充词c在词典中对应的种子词列表fw(c)。对扩充词c,检测所有种子词w∈F3,如果c∈R(w),则fw(c)=fw(c)∪{w}。步骤(4.2)计算每个扩充词的词频权重EFW和熵权重EHW。扩充词c基于词频权重的计算公式(4)如下所示:EFW(c)=SFW(w1)+SFW(w2)+…+SFW(wn),wi∈fw(c)(4)SFW(wi)是扩充词c对应的种子词wi的词频权重。基于熵权重的计算公式(5)如下所示:EHW(c)=SHW(w1)+SHW(w2)+…+SHW(wn),wi∈fw(c)(5)SHW(wi)是扩充词c对应的种子词wi的熵权重。步骤(4.3)在所有候选扩充词中,选取满足条件EFW>α’,EHW>β’的词作为扩充词。这里α’,β’为设定的阈值。直接删去词表中不满足条件的候选扩充词。步骤(4.4)为扩充词确定情感类型。扩充词的情感类型一般设定为与其对应的种子词的情感类型相同,但由于一个扩充词可能会由多个不同情感类型的种子词扩充得到,使扩充词的情感类型产生歧义。因此针对一个扩充词对应多个不同情感类型的种子词的情况,在其对应种子词中选取出现频率最高的情感类型作为该扩充词的情感类型。如果有并列频率最高的情况,由人工辅助判断,所得词典记作F4。步骤(5)基于规则的情感词扩充微博文本中存在大量具有情感倾向的格式化文本信息,可以通过基于规则的方法扩充多情感词典。规则定义如下:规则1:情感符号抽取。抽取连续三个及以上的标点字符串(“://”除外),直接将该标点字符串作为候选情感词,如“:-)”,“^_^”,“!!!!!”等。规则2:微博表情抽取。微博表情具有强烈情感倾向,如“[爱你]”,“[哈哈]”,“[嘻嘻]”等。规则3:情感词抽取。对以情感符号或微博表情结尾、分词长度小于等于2的字符串开本文档来自技高网
...
一种基于语义的弱监督微博多情感词典扩充方法

【技术保护点】
一种基于语义的弱监督微博多情感词典扩充方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理获取中文微博语料,同时对微博语料进行预处理,预处理后的文本记作G;步骤(2)、候选种子情感词获取及扩充词获取步骤(2.1)、过滤微博语料G中词性,保留G中的名词、形容词、动词,过滤后的微博语料记为G’;步骤(2.2)、统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,选取情感词作为候选情感词,其中,p为词频排名百分比阈值;每类情感选取K个情感词作为候选情感种子,得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词;步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词,情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn)),扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。步骤(3)候选种子情感词验证步骤(3.1)、统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:...

【技术特征摘要】
1.一种基于语义的弱监督微博多情感词典扩充方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理获取中文微博语料,同时对微博语料进行预处理,预处理后的文本记作G;步骤(2)、候选种子情感词获取及扩充词获取步骤(2.1)、过滤微博语料G中词性,保留G中的名词、形容词、动词,过滤后的微博语料记为G’;步骤(2.2)、统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,选取情感词作为候选情感词,其中,p为词频排名百分比阈值;每类情感选取K个情感词作为候选情感种子,得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词;步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词,情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn)),扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。步骤(3)候选种子情感词验证步骤(3.1)、统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:其中,SFW(w)是候选种子w的词频权重值,f(ci)是候选种子词w中第i个扩充词ci出现的词频,v(w,ci)是候选种子w与其扩充词ci的语义相关值,m为扩充词数量;步骤(3.2)、计算F2中候选种子词的熵权重SHW,计算公式(2)(3)如下:其中,SHW(w)是候选种子w的熵权重值,p(si)是候选种子w中第i个扩充词ci出现的概率,f(si)是候选种子s中第i个扩充词出现的词频,m为扩充词数量;步骤(3.3)、在所有候选种...

【专利技术属性】
技术研发人员:刘磊孙孟涛贾亚璐陈浩
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1