当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于朴素贝叶斯分类的节日情感分析方法技术

技术编号:23191006 阅读:81 留言:0更新日期:2020-01-24 16:18
本发明专利技术提供一种基于朴素贝叶斯分类的节日情感分析方法。本发明专利技术基于自然语言处理技术,建立微博影响力模型,将微博的评论、转发、点赞数进行权重分配以得到影响值。再从具体的节日方向出发利用朴素贝叶斯分类器对定向的微博数据进行分类,可以探究影响用户节日情感获取的实质因素。相关因子的提取也为舆情分析与控制以及商业营销发展提供理论依据。

A method of festival sentiment analysis based on Naive Bayesian classification

【技术实现步骤摘要】
一种基于朴素贝叶斯分类的节日情感分析方法
本专利技术涉及情感分析
,尤其涉及一种基于朴素贝叶斯分类的节日情感分析方法。
技术介绍
随着互联网技术的发展,人们越来越多地接触到不同类型的文化形式。文化资源经过多层面的输入输出,正进行世界范围的交流融合。然而,近年来,人们在很大程度上忽视了我国传统文化,越来越多的国人崇尚西方节日,更多地提倡外来文化。这一趋势的背后,我国传统文化的弘扬正受到严重的冲击,这也造成了传统文化的快速失落感。而毫无目的的宣传效果并不是很显著。现阶段的情感分析方法可分为基于情感词典的方法和基于机器学习的方法。前者是利用现有的情感词典根据语义规则,通过情感词典的制定,拆分文本数据的段落并解析句法,然后计算出情感值来描述文本的态度倾向。后者又称基于深度学习的方法,是通过选取文本的一些特征标注训练集和测试集,需要人工标注所要训练的文本,将目标分为不同的种类进行情感极性的判断,进行有监督的机器学习过程,使用朴素贝叶斯(NaiveBayes)、支持向量机(supportvectormachine,SVM)和最大熵(maximumentropy)等分类器进行文本分类。目前对于微博文本的情感分类大都集中在用户的评价分析以及对于事件本身热度的舆情分析并结合神经网络对相关事件进行预测,但现有方法没有考虑事件本身对于用户的影响力大小变化,从而导致无法准确地根据事件本身来做用户情感引导。
技术实现思路
根据上述提出的技术问题,而提供一种基于朴素贝叶斯分类的节日情感分析方法。本专利技术采用的技术手段如下:一种基于朴素贝叶斯分类的节日情感分析方法,包括如下步骤:步骤一、根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据,对采集到的原始数据进行预处理;步骤二、基于政策因素分析积极情感占比,具体地,将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类,进行积极情感占比分析;步骤三、基于明星效应因素分析积极情感占比,其中,所述明星为微博官方的热度统计数据中热度达到预设指标的用户,具体地,选取预设指标(转发、评论和点赞的互动数量)综合评定后,热度排名靠前的多名明星微博的预处理后的数据,通过朴素贝叶斯分类,进行积极情感占比分析;基于预先给定函数对多维度数据中的待分析内容构建影响力模型,进而计算该明星微博内容的影响力;步骤四、基于步骤二、步骤三的结论绘制可视化图表,分析影响用户情感获取的实质因素。进一步地,所述步骤一中,通过爬虫获取数据,具体包括:执行必要的请求参数,包括请求头和查询参数;将目标节日的日期和关键字设置为查询参数,抓取数据直接利用“请求”提供的方法将json数据转换为Pythondictionary对象,从中提取所有文本字段的值,并将其放入博客列表中;所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数。进一步地,所述步骤二、步骤三中,通过调用Snow-NLP对微博文本进行情感分析,读取爬虫获取的数据,然后执行单词分割和去停词操作。进一步地,所述步骤三中,基于如下给定函数计算该明星微博内容的影响力:其中,w1、w2分别表示转发及评论数所占都得权重,分别设为0.3、0.3,w3为点赞数的权重,设为0.4,bi表示微博的转发评论及点赞分别的数量。进一步地,根据明星影响力得分与相应年度微博标准化用户数之比,可以得到客观的明星微博影响力,具体地,采用Min-Max归一化方法对微博用户群进行归一化,对网络大小进行标准化,结果映射为[0,1]:其中xmax为样本数据的最大值,xmin为样本数据的最小值。本专利技术具有以下优点:本专利技术通过计算定向微博文本的情感倾向,对于目标博文采用朴素贝叶斯分类器,得到文本情感属于正向的概率,从传统节日本身的影响因素出发,探讨政策导向和明星影响力对公众从传统节日中获得积极情绪的重要性。这一出发点可以更为准确地就传统节日这一方面分析出影响公众情感获取的因素。基于上述理由本专利技术可在情感分析
广泛推广。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所述的基于朴素贝叶斯分类器的节日微博情感分析方法的流程图。图2是明星的微博影响力变化。图3是微博文本及计算的情感值截图。图4是政策发布前后的节日相关微博的正向情感占比变化。图5是政策发布前后的节日微博情感分布值。图6是明星效应对于网民从节日中获取正向情感的比例变化。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本实施例公开了一种基于朴素贝叶斯分类的节日情感分析方法,包括如下步骤:步骤一、节日微博数据获取及预处理。根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据,对采集到的原始数据进行预处理;具体地,通过爬虫获取数据,设定节日日期及名称为时间和关键字定向获取微博文本。具体包括:执行必要的请求参数,包括请求头和查询参数;将目标节日的日期和关键字设置为查询参数,抓取数据直接利用“请求”提供的方法将json数据转换为Pythondictionary对象,从中提取所有文本字段的值,并将其放入博客列表中;所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数;预处理步骤包括去重、删除缺失数据、无关数据和异常数据清洗后的数据等操作。步骤二、基于政策因素分析积极情感占比,具体地,将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类,进行积极情感占比分析;步骤三、通过明星影响力模型对明星的微博效应值进行计算,并结合微博用户的总人数对结果值进行归一化处理,保证影响力值的有效性。基于明星效应因素分析积极情感占比,其中,所述明星为微博官方的热度统计数据中热度达到预设指标的用户,具体地,选取预设指标(转发、评论和点赞的互动数量)综合评定后,热度排名靠前的多名明星微博的预处理后的数据,通过朴素贝叶斯分类,进行积极情感占比分析;基于预先给定函数对多维度数据中的待分析内容构建影响力模型,进而计算该明星微博内容的影响力;步骤四、基于步骤二、步骤三的结论绘制可视化图表,分析影响用户情感获取的实质因素。所述步骤二、步骤三中,通过调用Snow-NLP对微博文本进行情感分析,本文档来自技高网
...

【技术保护点】
1.一种基于朴素贝叶斯分类的节日情感分析方法,其特征在于,包括如下步骤:/n步骤一、根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据,对采集到的原始数据进行预处理;/n步骤二、基于政策因素分析积极情感占比,具体地,将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类,进行积极情感占比分析;/n步骤三、基于明星效应因素分析积极情感占比,其中,所述明星为微博官方的热度统计数据中热度达到预设指标的用户,具体地,选取预设指标综合评定后,热度排名靠前的多名明星微博的预处理后的数据,通过朴素贝叶斯分类,进行积极情感占比分析;基于预先给定函数对多维度数据中的待分析内容构建影响力模型,进而计算该明星微博内容的影响力,所述预设指标包括转发、评论和点赞的互动数量;/n步骤四、基于步骤二、步骤三的结论绘制可视化图表,分析影响用户情感获取的实质因素。/n

【技术特征摘要】
1.一种基于朴素贝叶斯分类的节日情感分析方法,其特征在于,包括如下步骤:
步骤一、根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据,对采集到的原始数据进行预处理;
步骤二、基于政策因素分析积极情感占比,具体地,将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类,进行积极情感占比分析;
步骤三、基于明星效应因素分析积极情感占比,其中,所述明星为微博官方的热度统计数据中热度达到预设指标的用户,具体地,选取预设指标综合评定后,热度排名靠前的多名明星微博的预处理后的数据,通过朴素贝叶斯分类,进行积极情感占比分析;基于预先给定函数对多维度数据中的待分析内容构建影响力模型,进而计算该明星微博内容的影响力,所述预设指标包括转发、评论和点赞的互动数量;
步骤四、基于步骤二、步骤三的结论绘制可视化图表,分析影响用户情感获取的实质因素。


2.根据权利要求1所述的基于朴素贝叶斯分类的节日情感分析方法,其特征在于,所述步骤一中,通过爬虫获取数据,具体包括:执行必要的请求参数,包括请求头和查询参数;将目标节日的日期和关键字设置为查询参数,抓取数据直接利用“请求”提供的方法将json数据转换为Pythondic...

【专利技术属性】
技术研发人员:宋禹幡胡建路原慧琳
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1