本发明专利技术公开了一种舆情热点动态检测方法,属于网络信息处理技术领域。该方法利用舆情热点本身的特点,通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤,在主题排序方面,考虑了主题的时间和数量特性,为某一时刻的每个主题计算出其得分值,使得主题排序更加合理,通过引入主题合并和调整的机制,减少了同一主题被误分为多个小主题的情况,通过引入主题内报道淘汰的机制,使得主题的内容更加集中,同时主题描述提出了将特征词和报道标题相结合的方法使得主题描述更加准确全面。
【技术实现步骤摘要】
本专利技术涉及,属于网络信息处理
技术介绍
网络舆情,是指在互联网上,围绕某些中介性社会事件的发生、发展和变化,网民对社会管理者产生和持有的社会政治态度,是网民关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。由于网络媒体的参与门槛低,使得网民的社会阶层分布广泛,反映出当前社会各个阶层民众的思想动态。网络媒体能够反映社会民意的社会舆情,但同时一些不负责任的虚假信息、极端言论以及失实的政治舆论也在传播,我国当前处于一个矛盾高发的时代,所面临的网络舆情检测与分析形势严峻,能够正确有效地把握危机事件,有利于维护社会的稳定、和谐发展,因此,在面对论坛、博客、微博等网络媒体中海量数据的时候,如何及时、准确地从互联网中检测到热点的舆情信息,快速准确地制止危及国家和社会稳定的不稳定因素以及引导正面舆论,促进和谐社会建设,保障经济持续稳定发展具有重大的意义。舆情热点检测技术是指从不断涌现的网络舆情中即时地获得新发生的热点信息,并对其进行持续追踪,主要依靠主题检测与追踪技术来实现。其中,文本聚类技术是主题检测技术的基础,包括单遍聚类、k-means聚类、层次凝聚聚类、概率模型。现有的主题检测技术的主要步骤为:(1)从数据源读入一篇报道,数据源可以是多个,包括内容、时间等其它信息;(2)采用质心比较策略或最近邻居比较策略,确定与当前报道最接近的主题;(3)判断报道与现有主题的相似度,若报道能归入某个主题,则调整该主题,若报道无法归入现有主题,则列为新主题;(4)输出检测到的主题,将主题中的特征词作为主题描述。由于现有主题检测技术主要考虑在固定的小数据集合上的错检率和漏检率,在实舆情热点自动检测时,主要存在的问题:(I)主题排序问题,现有技术仅仅按照主题本身包含的文档个数来排序,使得当前排序最前的主题是一些发生时间较长,相对陈旧的主题;(2)主题相似性问题,由于同一个主题在发生初期会进行不同方面的报道而被分为多个小主题,随着事态的发展,主题的相似度可能会越来越大,这就给用户的浏览带来迷惑;(3)淘汰过时报道问题,主题检测是长期持续的过程,而主题的动态演化使得主题内的一些报道和该主题的相关性会逐渐降低,或随着事态发展,整个主题内容可能过于宽泛,现有技术中没有考虑到过时报道淘汰问题;(4)主题描述问题,目前主题的描述包括提取主题若干个特征词和提取该主题中某个报道的标题两种方法,但是中文的自然语言处理技术仍然不够成熟,特征词并不一定可以表达该主题的意义,而如果采用该主题中某个报道的标题来描述,则可能会片面。
技术实现思路
本专利技术的目的在于通过改进现有的主题检测算法,并将其用于解决舆情热点检测存在的问题而提供一种舆情热点动态监测方法。本专利技术通过如下技术方案实现,具体包括如下步骤: 步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文 目息; 所述的新闻网络数据源,当新报道和已经处理报道的重复度大于重复阈值Θd时,则认为是重复报道,根据新报道的内容进行消重处理,其中0〈 Θ d ≤1 ; 所述的消重处理步骤为:采用文本挖掘中的相似度计算方法进行,并在报道预处理中,对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。步骤2,采用质心比较策略,将当前报道与所属类别内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es ; 所述的主题Es通过主题内部所有新闻中综合权重最高的若干个特征词来表达;所述的当前报道和主题Es之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算; 其中,在计算当前报道和现有监测到的主题间的相似度S时,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施: a)如果Smax小于创新阈值θη,则在该报道所述类别内创建一个新主题; b)如果Smax大于0 而小于聚类阈值Θ。,则返回步骤I; c)如果Smax大于Θ。而小于贡献阈值0t,则将当前报道的文章归于主题Es,但不调整Es ; d)如果Smax大于0t,则将当前报道的文章归入主题Es,并调整Es; 其中,O〈0n〈0c〈0t ≤l,0〈Smax≤I。步骤4,当一个类别处理固定数量新增报道后,对该类别内主题两两比较,如果两个主题的相似度大于合并阈值Qu,则将其合并,其中,o〈eu〈0n≤1 ; 所述的两个主题的相似度S,其计算是采用如下公式:权利要求1.,其特征在于具体算法步骤如下: 步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文 目息; 步骤2,采用质心比较策略,将当前报道与所属类别C内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es ; 步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施: a)如果Smax小于创新阈值θη,则在该报道所述类别内创建一个新主题; b)如果Smax大于0 而小于聚类阈值Θ。,则返回步骤I; c)如果Smax大于Θ。而小于贡献阈值0t,则将当前报道的文章归于主题Es,但不调整Es ; d)如果Smax大于0t,则将当前报道的文章归入主题Es,并调整Es; 其中,O〈0n〈0c〈0t< l,0≤Smax ≤1 ; 步骤4,当一个类别处理固定数量新增报道后,对该类别内主题两两比较,如果两个主题的相似度大于合并阈值eu,则将其合并,其中,o〈0u〈0n≤ 1 ; 步骤5,当一个类别处理固定数量 新增报道后,对各个主题内的报道进行淘汰,重新计算报道和该主题的相似度S,对相似度S低于聚类阈值Θ。的报道进行淘汰,然后再重新计算主题向量; 步骤6,若当前类别内的主题数量超过主题窗口大小,对类别内的主题进行排序,结合主题的时间和数量特性,从所有类别中选择出得分最高的若干个主题,作为该类别最热点的主题,并输出主题描述和包含的报道列表,其中,主题描述的生成过程如下: 步骤a),读取主题内部权重最高的若干个特征词; 步骤b),在与主题相似度大于主题阈值的主题内报道中,选择时间最近的若干篇报道的标题,其中0〈 Θ e <≤1 ; 步骤c),综合步骤a)和步骤b),输出该主题的描述。2.根据权利要求1所述的,其特征在于:步骤I中所述的新闻网络数据源,当新报道和已经处理报道的重复度大于重复阈值Θ d时,则认为是重复报道,根据新报道的内容进行消重处理,其中0〈 Θ d ≤1。3.根据权利要求2所述的,其特征在于:所述的消重处理步骤为:采用文本挖掘中的相似度计算方法进行,并在报道预处理中,对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。4.根据权利要求1所述的,其特征在于:步骤2中在计算当前报道和现有监测到的主题间的相似度S时,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。5.根据权利要求1所述的,其特征在于:本文档来自技高网...
【技术保护点】
一种舆情热点动态检测方法,其特征在于具体算法步骤如下:步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文信息;步骤2,采用质心比较策略,将当前报道与所属类别c内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es;?步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施:a)?如果Smax小于创新阈值θn,则在该报道所述类别内创建一个新主题;b)?如果Smax大于θn而小于聚类阈值θc,则返回步骤1;c)?如果Smax大于θc而小于贡献阈值θt,则将当前报道的文章归于主题Es,但不调整Es;d)?如果Smax大于θt,则将当前报道的文章归入主题Es,并调整Es;其中,0<θn<θc<θt≤1,0计算报道和该主题的相似度S,对相似度S低于聚类阈值θc的报道进行淘汰,然后再重新计算主题向量;步骤6,若当前类别内的主题数量超过主题窗口大小,对类别内的主题进行排序,结合主题的时间和数量特性,从所有类别中选择出得分最高的若干个主题,作为该类别最热点的主题,并输出主题描述和包含的报道列表,其中,主题描述的生成过程如下:步骤a)?,读取主题内部权重最高的若干个特征词;步骤b)?,在与主题相似度大于主题阈值θe的主题内报道中,选择时间最近的若干篇报道的标题,其中0<θe≤1;步骤c),综合步骤a)?和步骤b),输出该主题的描述。...
【技术特征摘要】
【专利技术属性】
技术研发人员:李千目,刘婷,侯君,戚湧,
申请(专利权)人:南京理工大学常熟研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。