当前位置: 首页 > 专利查询>西华大学专利>正文

基于情感传播的隐式情感词典生成方法技术

技术编号:29873830 阅读:18 留言:0更新日期:2021-08-31 23:49
本发明专利技术涉及计算机领域,具体是基于情感传播的隐式情感词典生成方法,包括如下步骤:步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言;步骤二、通过词法与句法分析将句子构成句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图;步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典,解决了隐式情感词典的构建通过人工标注数据,耗费人力物力以及时间的问题。

【技术实现步骤摘要】
基于情感传播的隐式情感词典生成方法
本专利技术涉及计算机领域,具体是指基于情感传播的隐式情感词典生成方法。
技术介绍
现阶段针对隐式情感词典的构建是通过人工标注数据的方式实现,这是一种十分耗费人力物力以及时间的工作。StanfordCoreNLP是斯坦福大学制作的开源NLP(NaturalLanguageProcessing)工具,能够对中文进行词法与句法分析,以及命名实体识别;PolarityRank算法是结合了PageRank算法与Hits算法,通过情感传播,对词语图中情感值进行排名的一种算法;通过引入外部知识,可以更容易的得到初始情感值,减轻人为打标签的负担。通过将上述三种方法引入隐式情感词典的构建,能够最大程度的解决人工标注耗费人力物力以及时间的问题。
技术实现思路
基于以上问题,本专利技术提供了基于情感传播的隐式情感词典生成方法,解决了隐式情感词典的构建通过人工标注数据,耗费人力物力以及时间的问题。为解决以上技术问题,本专利技术采用的技术方案如下:基于情感传播的隐式情感词典生成方法,包括如下步骤:步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;步骤三、在完全图Gn中进行情感传播,当情感传播结束后即可获得隐式情感词典;所述步骤三具体包括:步骤31、完全图Gn每个节点的词语称为显示情感词语vi,引入大连理工情感词典本体为显示情感词语vi分配初始情感值,其中,预设显示情感词语vi的情感值为同时,需要对情感值作归一化处理;步骤32、预设完全图gn中每个节点的显示情感词语vi有两个情感值和其中,是词语的正向情感值,是负向情感值,根据大连理工情感词典本体的情感极性,为显示情感词语vi的两个情感值和分配初始情感值;步骤33、情感传播开始后,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况;步骤34、每次情感传播后计算情感词语vi更新后的情感值;步骤35、当更新后的情感值计算完成后,通过归一化手段获得显示情感词语vi的最终情感值步骤36、通过显示情感词语vi的最终情感值获得隐式情感词汇的情感极性,从而获得隐式情感词典。进一步,所述步骤一中,对非正式文本数据进行处理,恢复成自然语言具体包括:步骤11、清理掉无用信息,无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容;步骤12、将繁体中文转换成简体中文;步骤13、对句子进行切割;步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。进一步,所述步骤二中具体包括如下步骤:步骤21、利用StanfordCoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系;步骤22、将句法树中的名词、动词以及形容词提取出来,并通过StanfordCoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3,......,wm},其中,wm表示第m个被提取出的词语;步骤23、采用python处理图数据的库networkx进行完全图的构建,完全图中节点为提取出的词语wn,每两个节点间都有边,边权为该两个词语在语料库中出现的频率,完全图中所有句子构成语料库。进一步,所述步骤31中,由于大连理工情感词典本体的情感极性是1,3,5,7,9,采用如下公式对显示情感词语vi的情感值进行归一化处理:进一步,步骤32中,显示情感词语vi的两个情感值和分配初始情感值的分配规则为:完全图Gn中,如果没有词语出现在大连理工情感词典本体中,则完全图Gn中,如果情感值为1,则完全图Gn中,如果情感值为2,则完全图Gn中,如果情感值为3,则进一步,所述步骤33具体包括如下:步骤331、显示情感词语vi在初始时刻的传播率为且不传播率为而任意时刻,传播率与不传播率之和为1,即步骤332、计算每个节点在某一时刻受到邻居节点的影响,计算公式为:wij=P(wordi,wordj);其中,表示显示情感词语vi在t时刻受到邻居节点的影响,wij表示词语i和词语j在语料库中的共现频率,表示词语j在某一时刻的传播率,P(wordi,wordj)表示词语i和词语j在语料库中共现的概率,F(wordi,wordj)表示词语i和词语j在语料库中的共现频率,N表示语料库中所有句子的数量,完全图中所有句子构成语料库;步骤333、计算每个时刻显示情感词语vi的情感传播情况公式如下:其中,λ用于衡量词语间情感传播的概率,μ用于衡量错别字与词语搭配错误的概率;计算每个时刻显示情感词语vi的情感不传播情况公式如下:进一步,所述步骤34中,情感传播后正向的情感值为负向的情感值为其计算公式为:其中,表示该词语以相同的概率将情感传播给它的邻居节点。进一步,所述步骤35中,归一化公式为:进一步,所述步骤36中,获得隐式情感词汇的情感极性的公式为:与现有技术相比,本专利技术的有益效果是:本专利技术通过网络爬虫技术与清洗,将非正式文本恢复为语言,并切割为句子,接着结合NLP技术中的词法句法分析以及命名实体识别,有效提取出文本中的名词、动词、形容词,并根据这些词语将句子构建成为了句法树;第三步,我们通过定义的规则将句法树构建成为了句法图,在句法图中进行相关的情感传播,情感传播过程中我们还考虑了传播参数以及词语搭配错误参数用于提高情感传播的准确率,最终我们对获得的词语的情感值进行归一化处理,便获得了我们最终的词典。附图说明图1为本实施例的流程图;图2为本实施例构成的句法图;图3为本实施例构成的完全图;图4为本实施例情感传播的示意图。具体实施方式下面结合附图对本专利技术作进一步的说明。本专利技术的实施方式包括但不限于下列实施例。如图1所示的基于情感传播的隐式情感词典生成方法,包括如下步骤:步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn本文档来自技高网...

【技术保护点】
1.基于情感传播的隐式情感词典生成方法,其特征在于,包括如下步骤:/n步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s

【技术特征摘要】
1.基于情感传播的隐式情感词典生成方法,其特征在于,包括如下步骤:
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;
步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;
步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典;
所述步骤三具体包括:
步骤31、完全图Gn每个节点的词语称为显示情感词语vi,引入大连理工情感词典本体为显示情感词语vi分配初始情感值,其中,预设显示情感词语vi的情感值为同时,需要对情感值作归一化处理;
步骤32、预设完全图Gn中每个节点的显示情感词语vi有两个情感值和其中,是词语的正向情感值,是负向情感值,根据大连理工情感词典本体的情感极性,为显示情感词语vi的两个情感值和分配初始情感值;
步骤33、情感传播开始后,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况;
步骤34、每次情感传播后计算情感词语vi更新后的情感值;
步骤35、当更新后的情感值计算完成后,通过归一化手段获得显示情感词语vi的最终情感值
步骤36、通过每个词语vi的最终情感值获得该词语的情感词汇的情感极性,提取出其中的隐式词汇,构建成为隐式情感词典。


2.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤一中,对非正式文本数据进行处理,恢复成自然语言具体包括:
步骤11、清理掉无用信息,无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容;
步骤12、将繁体中文转换成简体中文;
步骤13、对句子进行切割;
步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。


3.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤二中具体包括如下步骤:
步骤21、利用StanfordCoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系;
步骤22、将句法树中的名词、动词以及形容词提取出来,并通过StanfordCoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3...

【专利技术属性】
技术研发人员:李显勇李齐治陈龙齐杜亚军范永全陈晓亮
申请(专利权)人:西华大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1