【技术实现步骤摘要】
基于情感传播的隐式情感词典生成方法
本专利技术涉及计算机领域,具体是指基于情感传播的隐式情感词典生成方法。
技术介绍
现阶段针对隐式情感词典的构建是通过人工标注数据的方式实现,这是一种十分耗费人力物力以及时间的工作。StanfordCoreNLP是斯坦福大学制作的开源NLP(NaturalLanguageProcessing)工具,能够对中文进行词法与句法分析,以及命名实体识别;PolarityRank算法是结合了PageRank算法与Hits算法,通过情感传播,对词语图中情感值进行排名的一种算法;通过引入外部知识,可以更容易的得到初始情感值,减轻人为打标签的负担。通过将上述三种方法引入隐式情感词典的构建,能够最大程度的解决人工标注耗费人力物力以及时间的问题。
技术实现思路
基于以上问题,本专利技术提供了基于情感传播的隐式情感词典生成方法,解决了隐式情感词典的构建通过人工标注数据,耗费人力物力以及时间的问题。为解决以上技术问题,本专利技术采用的技术方案如下:基于情感传播的隐式情感词典生成方法,包括如下步骤:步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n ...
【技术保护点】
1.基于情感传播的隐式情感词典生成方法,其特征在于,包括如下步骤:/n步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s
【技术特征摘要】
1.基于情感传播的隐式情感词典生成方法,其特征在于,包括如下步骤:
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;
步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;
步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典;
所述步骤三具体包括:
步骤31、完全图Gn每个节点的词语称为显示情感词语vi,引入大连理工情感词典本体为显示情感词语vi分配初始情感值,其中,预设显示情感词语vi的情感值为同时,需要对情感值作归一化处理;
步骤32、预设完全图Gn中每个节点的显示情感词语vi有两个情感值和其中,是词语的正向情感值,是负向情感值,根据大连理工情感词典本体的情感极性,为显示情感词语vi的两个情感值和分配初始情感值;
步骤33、情感传播开始后,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况;
步骤34、每次情感传播后计算情感词语vi更新后的情感值;
步骤35、当更新后的情感值计算完成后,通过归一化手段获得显示情感词语vi的最终情感值
步骤36、通过每个词语vi的最终情感值获得该词语的情感词汇的情感极性,提取出其中的隐式词汇,构建成为隐式情感词典。
2.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤一中,对非正式文本数据进行处理,恢复成自然语言具体包括:
步骤11、清理掉无用信息,无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容;
步骤12、将繁体中文转换成简体中文;
步骤13、对句子进行切割;
步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。
3.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤二中具体包括如下步骤:
步骤21、利用StanfordCoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系;
步骤22、将句法树中的名词、动词以及形容词提取出来,并通过StanfordCoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3...
【专利技术属性】
技术研发人员:李显勇,李齐治,陈龙齐,杜亚军,范永全,陈晓亮,
申请(专利权)人:西华大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。