一种舆情热点动态检测方法技术

技术编号：8735158 阅读：161 留言：0更新日期：2013-05-26 11:45

本发明专利技术公开了一种舆情热点动态检测方法，属于网络信息处理技术领域。该方法利用舆情热点本身的特点，通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤，在主题排序方面，考虑了主题的时间和数量特性，为某一时刻的每个主题计算出其得分值，使得主题排序更加合理，通过引入主题合并和调整的机制，减少了同一主题被误分为多个小主题的情况，通过引入主题内报道淘汰的机制，使得主题的内容更加集中，同时主题描述提出了将特征词和报道标题相结合的方法使得主题描述更加准确全面。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于网络信息处理

技术介绍
网络舆情，是指在互联网上，围绕某些中介性社会事件的发生、发展和变化，网民对社会管理者产生和持有的社会政治态度，是网民关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。由于网络媒体的参与门槛低，使得网民的社会阶层分布广泛，反映出当前社会各个阶层民众的思想动态。网络媒体能够反映社会民意的社会舆情，但同时一些不负责任的虚假信息、极端言论以及失实的政治舆论也在传播，我国当前处于一个矛盾高发的时代，所面临的网络舆情检测与分析形势严峻，能够正确有效地把握危机事件，有利于维护社会的稳定、和谐发展，因此，在面对论坛、博客、微博等网络媒体中海量数据的时候，如何及时、准确地从互联网中检测到热点的舆情信息，快速准确地制止危及国家和社会稳定的不稳定因素以及引导正面舆论，促进和谐社会建设，保障经济持续稳定发展具有重大的意义。舆情热点检测技术是指从不断涌现的网络舆情中即时地获得新发生的热点信息，并对其进行持续追踪，主要依靠主题检测与追踪技术来实现。其中，文本聚类技术是主题检测技术的基础，包括单遍聚类、k-means聚类、层次凝聚聚类、概率模型。现有的主题检测技术的主要步骤为:(1)从数据源读入一篇报道，数据源可以是多个，包括内容、时间等其它信息；(2)采用质心比较策略或最近邻居比较策略，确定与当前报道最接近的主题；(3)判断报道与现有主题的相似度，若报道能归入某个主题，则调整该主题，若报道无法归入现有主题，则列为新主题；(4)输出检测到的主题，将主题中的特征词作为主题描述。由于现有主题检测技术主要考虑在固定的小...

【技术保护点】
一种舆情热点动态检测方法，其特征在于具体算法步骤如下：步骤1，检测一个或多个新闻网络数据源，从数据源中抓取报道，解析出报道的时间、标题和正文信息；步骤2，采用质心比较策略，将当前报道与所属类别c内现有监测到的主题进行比较，同时考虑时间和内容特征，计算当前报道和现有监测到的主题间的相似度，并记录最大相似度Smax以及相似度最大的主题Es；?步骤3，根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es，对当前报道采取如下措施：a)?如果Smax小于创新阈值θn，则在该报道所述类别内创建一个新主题；b)?如果Smax大于θn而小于聚类阈值θc，则返回步骤1；c)?如果Smax大于θc而小于贡献阈值θt，则将当前报道的文章归于主题Es，但不调整Es；d)?如果Smax大于θt，则将当前报道的文章归入主题Es，并调整Es；其中，0<θn<θc<θt≤1，0计算报道和该主题的相似度S，对相似度S低于聚类阈值θc的报道进行淘汰，然后再重新计算主题向量；步骤6，若当前类别内的主题数量超过主题窗口大小，对类别内的主题进行排序，结合主题的时间和数量特性，从所有类别中选择出得分最高的若干个主题，作为该类别最热点的主题，并输出主题描述和包含的报道列表，其中，主题描述的生成过程如下：步骤a)?，读取主题内部权重最高的若干个特征词；步骤b)?，在与主题相似度大于主题阈值θe的主题内报道中，选择时间最近的若干篇报道的标题，其中0<θe≤1；步骤c），综合步骤a)?和步骤b)，输出该主题的描述。...

【技术特征摘要】

【专利技术属性】
技术研发人员：李千目，刘婷，侯君，戚湧，
申请(专利权)人：南京理工大学常熟研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人