一种基于语义的弱监督微博多情感词典扩充方法技术

技术编号：17265346 阅读：43 留言：0更新日期：2018-02-14 12:49

本发明专利技术公开一种基于语义的弱监督微博多情感词典扩充方法，包括：建立候选种子词典；通过词频权重和熵权重对候选种子情感词过滤；以word2vec算法获取候选情感词，并通过统计方法验证；用基于规则方法补充情感词典。本发明专利技术方法有效扩充了多情感词典，并减少了多情感词典中情感词的数量不平衡问题。

A semantic based weak supervised micro-blog multi emotion dictionary expansion method

The invention discloses a semantic micro-blog weakly supervised sentiment dictionary expansion method based on, including: the establishment of candidate seed dictionary; through word frequency weighting and entropy weight of candidate seed emotional words filtering; word2vec algorithm to obtain the candidate emotional words, and through statistical method validation; rule methods complement sentimentdictionary. The method of the invention effectively expand emotional dictionary, and reduce the number of emotional sentiment word dictionary imbalance.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义的弱监督微博多情感词典扩充方法
本专利技术属于文本信息处理领域，具体是涉及一种基于语义的弱监督微博多情感词典扩充方法。
技术介绍
微博是一个全球范围的用户信息分享平台，用户通过发布文本或图片的形式实现信息的分享和传播。近年来微博网站高速发展，中文微博以“新浪”微博、“腾讯”微博为代表，英文微博以“Twitter”、“Facebook”为代表。微博的发展加速了信息的传播速度。但随着信息获取便利的同时，人们从海量数据中获取知识的效率也在降低。传统文本的分类已经不能满足人们对网络即时信息的分类要求。如何根据微博内容自动判断人们所要表达的情感，从而快速获取不同情感属性的微博，就成为了一个重要的问题。微博情感自动分类技术可以帮助相关公司企业及政府部门有效地收集社会热点事件的情感反馈，分析微博中的不同观点，为制定策略提供了一个高效可靠的依据。情感分类中一个基本问题就是情感词获取，即情感词典的建立。情感词典的质量直接影响到分类的最终效果，而很多情感词典针对性弱且情感词数量不能满足分类要求。使用人工标注的情感词典不仅费时费力，而且无法解决海量微博中的文本不规则性、语义表达丰富性等问题。在情感词典构建中，多情感词典构建更是其中的难点。不同于正负情感词典，人的情感种类丰富，如何定义情感的类型，如何确定词的情感类型，如何解决情感词的不平衡问题等是多情感词典构建亟需解决的问题。专利技术人通过改进word2vec算法，建立了可自动获取且针对性较强的微博多情感词典，并根据网络情感表达方式，建立了情感词典扩充规则。生成的情感词典减少了人工标注费时费力的问题，有效提高了情感分...
一种基于语义的弱监督微博多情感词典扩充方法

【技术保护点】
一种基于语义的弱监督微博多情感词典扩充方法，其特征在于，包括以下步骤：步骤(1)、微博语料获取和预处理获取中文微博语料，同时对微博语料进行预处理，预处理后的文本记作G；步骤(2)、候选种子情感词获取及扩充词获取步骤(2.1)、过滤微博语料G中词性，保留G中的名词、形容词、动词，过滤后的微博语料记为G’；步骤(2.2)、统计G’中所有词的词频，将G中所有词按词频降序排序，从排名前p％内词中，选取情感词作为候选情感词，其中，p为词频排名百分比阈值；每类情感选取K个情感词作为候选情感种子，得到的候选种子情感词典记为F1＝{w1,w2,…,wn}，wj为候选种子情感词；步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w，以微博语料G为数据源，用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词，记做R(w)＝(c1,c2,…,cm)，即每个候选种子情感词都得到m个扩充词，情感词w与扩充词c的语义相关值用v(w,c)表示，则情感词w与m个扩充词的语义相关值可以记为V(w)＝(v(w,c1),v(w,c2),…,v(w,cn))，扩充后的词典记为F2＝{w1,R(w1),w...

【技术特征摘要】
1.一种基于语义的弱监督微博多情感词典扩充方法，其特征在于，包括以下步骤：步骤(1)、微博语料获取和预处理获取中文微博语料，同时对微博语料进行预处理，预处理后的文本记作G；步骤(2)、候选种子情感词获取及扩充词获取步骤(2.1)、过滤微博语料G中词性，保留G中的名词、形容词、动词，过滤后的微博语料记为G’；步骤(2.2)、统计G’中所有词的词频，将G中所有词按词频降序排序，从排名前p％内词中，选取情感词作为候选情感词，其中，p为词频排名百分比阈值；每类情感选取K个情感词作为候选情感种子，得到的候选种子情感词典记为F1＝{w1,w2,…,wn}，wj为候选种子情感词；步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w，以微博语料G为数据源，用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词，记做R(w)＝(c1,c2,…,cm)，即每个候选种子情感词都得到m个扩充词，情感词w与扩充词c的语义相关值用v(w,c)表示，则情感词w与m个扩充词的语义相关值可以记为V(w)＝(v(w,c1),v(w,c2),…,v(w,cn))，扩充后的词典记为F2＝{w1,R(w1),w2,R(w2),…,wn,R(wn)}。步骤(3)候选种子情感词验证步骤(3.1)、统计每个扩充词在F2中的词频，使用公式(1)计算候选种子的词频权重SFW：其中，SFW(w)是候选种子w的词频权重值，f(ci)是候选种子词w中第i个扩充词ci出现的词频，v(w,ci)是候选种子w与其扩充词ci的语义相关值，m为扩充词数量；步骤(3.2)、计算F2中候选种子词的熵权重SHW，计算公式(2)(3)如下：其中，SHW(w)是候选种子w的熵权重值，p(si)是候选种子w中第i个扩充词ci出现的概率，f(si)是候选种子s中第i个扩充词出现的词频，m为扩充词数量；步骤(3.3)、在所有候选种...

【专利技术属性】
技术研发人员：刘磊，孙孟涛，贾亚璐，陈浩，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人