本发明专利技术公开了一种舆情分析方法,包括:对舆情信息进行预处理;对文章进行分词;根据分词结果创建词语索引,并统计词频;将待处理数据划分为训练集和测试集;定义网络结构;训练网络模型,保存特征值;结合网络模型及特征值来判断新的舆情信息是正面舆情还是负面舆情,实现舆情信息判断。本发明专利技术根据LSTM模型的特点,当有信息进入控制单元时,控制单元会对信息进行判断,符合规则的留下,不符合规则的遗忘,以此来解决神经网络中的长序列依赖问题。
【技术实现步骤摘要】
一种舆情分析系统及方法
本专利技术具体涉及一种舆情分析系统及方法。
技术介绍
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性:通过BBS、新闻点评或博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性:由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。对于网络舆情的这些特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。
技术实现思路
针对上述问题,本专利技术提出一种舆情分析系统及方法,根据LSTM模型的特点,当有信息进入控制单元时,控制单元会对信息进行判断,符合规则的留下,不符合规则的遗忘,以此来解决神经网络中的长序列依赖问题。实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种舆情分析方法,包括以下步骤:(1)对舆情信息进行预处理;(2)对文章进行分词;(3)根据步骤(2)中得到的分词结果创建词语索引,并统计词频;(4)将待处理数据划分为训练集和测试集;(5)定义网络结构;(6)训练网络模型,保存特征值;(7)结合网络模型及步骤(6)中的特征值来判断新的舆情信息是正面舆情还是负面舆情,实现舆情信息判断。进一步地,所述步骤(1)具体为:定义正面舆情信息为正样本,定义负面舆情信息为负样本;(1.1)加载正样本;(1.3)加载负样本;(1.3)对正样本和负样本进行分类,并设置不同的标记;(1.4)创建读取数据的路径。进一步地,所述步骤(2)具体为:(2.1)进行词图扫描,生成网页中的句子中汉字所有可能成词情况所构成的有向无环图DAG;(2.2)采用动态规划查找最大概率路径,找出基于词频的最大切分组合,其中,对于词语中未记录的词,采用基于汉字成词能力的HMM模型进行分词。进一步地,所述HMM模型中采用的是Viterbi算法。进一步地,所述步骤(3)具体为:(3.1)创建词语字典,并返回每个词语的索引、词向量以及每个句子所对应的词语索引;(3.2)统计词频。进一步地,所述步骤(4)具体为:将待处理数据数据划分为训练集和测试集,划分比例为8:2或者7:3。进一步地,所述步骤(5)中定义的网络结构中使用的是LSTM模型,所述LSTM模型包括:遗忘门:ft=σ(Wf·[ht-1,xt]+bf)其中,ht-1和xt均为输入值;ft为输出值,介于0-1之间;σ为σ函数;当ft等于1时,表示完全保留该值;当ft等于0时,表示完全舍弃该值;输入门:it=σ(Wi·[ht-1,xt]+bi)其中,Wi表示连接权重;bi表示偏置;it用于表示是否产生输入,其取值范围是0-1;其中,表示神经元状态,是新产生的候选向量;Wc表示连接权重;bc表示偏置;遗忘门ft乘Ct-1表示忘掉决定忘掉的早期信息;Ct表示通过遗忘门和输入门的组合表达多大程度上忘掉旧的信息以及多大程度上更新新的信息;输出门:Ot=σ(Wo·[ht-1,xt]+bo)ht=Ot·tanh(Ct)其中,Wo表示连接权重;bo表示偏置;Ot为缩放比例;ht表示t时刻的输入值;单元状态通过tanh函数激活,其结果与Ot相乘。进一步地,所述步骤(5)中的网络结构中:其输入层与输出层的元件激活函数为Sigmoid,即:其内部元件的激活函数为近似Sigmoid函数;Dropout舍弃神经元概率为0.5;优化器选用适应性矩阵估计;使用参数的移动平均数改善传统的梯度下降。与现有技术相比,本专利技术的有益效果:1.人工与计算机联合对训练数据进行干预,确保数据的纯净性;2.通过分词和神经网络两种方法综合分析,减少误差;3.通过机器训练可以直观的看到正确率,并且方便参数调整;4.根据LSTM模型的特点,当有信息进入控制单元时,控制单元会对信息进行判断,符合规则的留下,不符合规则的遗忘,以此来解决神经网络中的长序列依赖问题。附图说明图1为本专利技术一种实施例的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。如图1所示,本专利技术的一种舆情分析方法,包括以下步骤:一种舆情分析方法,包括以下步骤:步骤(1):对舆情信息进行预处理;具体为:定义正面舆情信息为正样本,定义负面舆情信息为负样本;(1.1)加载正样本;(1.2)加载负样本;(1.3)对正样本和负样本进行分类,并设置不同的标记;(1.4)创建读取数据的reader,即提供数据的读取路径。步骤(2):对文章进行分词;具体包括:(2.1)基于Trie树结构实现高效的词图扫描,生成网页中的句子中汉字所有可能成词情况所构成的有向无环图DAG;(2.2)采用动态规划查找最大概率路径,找出基于词频的最大切分组合,其中,对于词语中未记录的词,所述的未登陆就是字典中不存在的词,采用基于汉字成词能力的HMM模型进行分词;在本专利技术中,找出最大切分组合的目的就是要得出需要的目标词,比如:中科恒运/亮相/2018/数博会/为期/4/天/的/2018/中国/国际/大数据/博览会/29/日/在/贵州省/贵阳/闭幕。这句话切分的结果就是需要的目标词,后期做舆情分析的时候就是根据这些词来进行分析;隐马尔科夫模型(HMM)的定义:对于HMM模型,首先我们假设Q是所有可能的隐藏状态的集合,V是所有可能的观测状态的集合,即:Q={q1,q2,...,qN},V={V1,V2,...,VM}其中,N是可能的隐藏状态数,M是所有的可能的观察状态数。对于一个长度为T的序列,I对应的状态序列,O是对应的观察序列,即:I={i1,i2,...,iT},O={o1,o2,...,oT}其中,任意一个隐藏状态it∈Q,任意一个观察状态Ot∈VHMM模型做了两个很重要的假设如下:齐次马尔科夫链假设:即任意时刻的隐藏状态只依赖于它前一个隐藏状态。如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为:aij=P(it+1=qj|it=qi)这样aij可以组成马尔科夫链的状态转移矩阵A本文档来自技高网...
【技术保护点】
1.一种舆情分析方法,其特征在于,包括以下步骤:(1)对舆情信息进行预处理;(2)对文章进行分词;(3)根据步骤(2)中得到的分词结果创建词语索引,并统计词频;(4)将待处理数据划分为训练集和测试集;(5)定义网络结构;(6)训练网络模型,保存特征值;(7)结合网络模型及步骤(6)中的特征值来判断新的舆情信息是正面舆情还是负面舆情,实现舆情信息判断。
【技术特征摘要】
1.一种舆情分析方法,其特征在于,包括以下步骤:(1)对舆情信息进行预处理;(2)对文章进行分词;(3)根据步骤(2)中得到的分词结果创建词语索引,并统计词频;(4)将待处理数据划分为训练集和测试集;(5)定义网络结构;(6)训练网络模型,保存特征值;(7)结合网络模型及步骤(6)中的特征值来判断新的舆情信息是正面舆情还是负面舆情,实现舆情信息判断。2.根据权利要求1所述的一种舆情分析方法,其特征在于:所述步骤(1)具体为:定义正面舆情信息为正样本,定义负面舆情信息为负样本;(1.1)加载正样本;(1.2)加载负样本;(1.3)对正样本和负样本进行分类,并设置不同的标记;(1.4)创建读取数据的路径。3.根据权利要求1所述的一种舆情分析方法,其特征在于:所述步骤(2)具体为:(2.1)进行词图扫描,生成网页中的句子中汉字所有可能成词情况所构成的有向无环图DAG;(2.2)采用动态规划查找最大概率路径,找出基于词频的最大切分组合,其中,对于词语中未记录的词,采用基于汉字成词能力的HMM模型进行分词。4.根据权利要求3所述的一种舆情分析方法,其特征在于:所述HMM模型中采用的是Viterbi算法。5.根据权利要求1所述的一种舆情分析方法,其特征在于:所述步骤(3)具体为:(3.1)创建词语字典,并返回每个词语的索引、词向量以及每个句子所对应的词语索引;(3.2)统计词频。6.根据权利要求1所述的一种舆情分析方法,其特征在于:...
【专利技术属性】
技术研发人员:王国军,王鹏超,田景望,潘定遥,
申请(专利权)人:贵州中科恒运软件科技有限公司,
类型:发明
国别省市:贵州,52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。