基于情感传播的隐式情感词典生成方法技术

技术编号：29873830 阅读：18 留言：0更新日期：2021-08-31 23:49

本发明专利技术涉及计算机领域，具体是基于情感传播的隐式情感词典生成方法，包括如下步骤：步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言；步骤二、通过词法与句法分析将句子构成句法树，将句法树中的名词、动词以及形容词提取出来构建成为完全图；步骤三、在完全图中进行情感传播，当情感传播结束后即可获得隐式情感词典，解决了隐式情感词典的构建通过人工标注数据，耗费人力物力以及时间的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于情感传播的隐式情感词典生成方法
本专利技术涉及计算机领域，具体是指基于情感传播的隐式情感词典生成方法。
技术介绍
现阶段针对隐式情感词典的构建是通过人工标注数据的方式实现，这是一种十分耗费人力物力以及时间的工作。StanfordCoreNLP是斯坦福大学制作的开源NLP(NaturalLanguageProcessing)工具，能够对中文进行词法与句法分析，以及命名实体识别；PolarityRank算法是结合了PageRank算法与Hits算法，通过情感传播，对词语图中情感值进行排名的一种算法；通过引入外部知识，可以更容易的得到初始情感值，减轻人为打标签的负担。通过将上述三种方法引入隐式情感词典的构建，能够最大程度的解决人工标注耗费人力物力以及时间的问题。
技术实现思路
基于以上问题，本专利技术提供了基于情感传播的隐式情感词典生成方法，解决了隐式情感词典的构建通过人工标注数据，耗费人力物力以及时间的问题。为解决以上技术问题，本专利技术采用的技术方案如下：基于情感传播的隐式情感词典生成方法，包括如下步骤：步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言，恢复后的文本数据记为S＝{s1,s2,s3,......,sn}，其中，sn表示第n个恢复成自然语言的句子；步骤二、将恢复后的文本数据S＝{s1,s2,s3,......,sn}构建成为句法树T＝{t1,t2,t3,......,tn}，其中tn表示第n...

【技术保护点】
1.基于情感传播的隐式情感词典生成方法，其特征在于，包括如下步骤：/n步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言，恢复后的文本数据记为S＝{s

【技术特征摘要】
1.基于情感传播的隐式情感词典生成方法，其特征在于，包括如下步骤：
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据，并对非正式文本数据进行处理，恢复成自然语言，恢复后的文本数据记为S＝{s1,s2,s3,......,sn}，其中，sn表示第n个恢复成自然语言的句子；
步骤二、将恢复后的文本数据S＝{s1,s2,s3,......,sn}构建成为句法树T＝{t1,t2,t3,......,tn}，其中tn表示第n个生成的句法树，将句法树中的名词、动词以及形容词提取出来构建成为完全图G＝{G1,G2,......,Gn}，其中Gn表示第n个由句法树生成的完全图；
步骤三、在完全图中进行情感传播，当情感传播结束后即可获得隐式情感词典；
所述步骤三具体包括：
步骤31、完全图Gn每个节点的词语称为显示情感词语vi，引入大连理工情感词典本体为显示情感词语vi分配初始情感值，其中，预设显示情感词语vi的情感值为同时，需要对情感值作归一化处理；
步骤32、预设完全图Gn中每个节点的显示情感词语vi有两个情感值和其中，是词语的正向情感值，是负向情感值，根据大连理工情感词典本体的情感极性，为显示情感词语vi的两个情感值和分配初始情感值；
步骤33、情感传播开始后，计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况；
步骤34、每次情感传播后计算情感词语vi更新后的情感值；
步骤35、当更新后的情感值计算完成后，通过归一化手段获得显示情感词语vi的最终情感值
步骤36、通过每个词语vi的最终情感值获得该词语的情感词汇的情感极性，提取出其中的隐式词汇，构建成为隐式情感词典。

2.根据权利要求1所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤一中，对非正式文本数据进行处理，恢复成自然语言具体包括：
步骤11、清理掉无用信息，无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容；
步骤12、将繁体中文转换成简体中文；
步骤13、对句子进行切割；
步骤14、经步骤11～13处理后的文本数据记为S＝{s1,s2,s3,......,sn}。

3.根据权利要求1所述的基于情感传播的隐式情感词典生成方法，其特征在于，所述步骤二中具体包括如下步骤：
步骤21、利用StanfordCoreNLP软件将S中的句子进行词法与句法分析，构建句法树，句法树包括包含词语、词性以及词语之间的依赖关系；
步骤22、将句法树中的名词、动词以及形容词提取出来，并通过StanfordCoreNLP软件对每个句子sn进行命名实体识别，清理掉标签为DATE的命名实体，每一个句子sn提取出的词语记为wn＝{w1,w2,w3...

【专利技术属性】
技术研发人员：李显勇，李齐治，陈龙齐，杜亚军，范永全，陈晓亮，
申请(专利权)人：西华大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人