【技术实现步骤摘要】
基于互联网数据采集的热点事件预测系统
[0001]本专利技术涉及互联网
,具体涉及基于互联网数据采集的热点事件预测系统。
技术介绍
[0002]随着移动网络普及程度加深,移动互联网用户规模近年来极巨扩大,互联网舆情的传播中心由传统的网站、论坛、博客向微博、微信、移动新闻客户端转移。移动互联网的发展改变了网络舆论场的格局,越来越多的网民使用智能手机上网发表对公共事务的观点和态度。由于移动互联网不同于固定互联网的特性,移动互联网舆情也在网络舆情的多个要素上体现出新的特征。移动网络平台最大的特点是泛在化,包括主体泛在、时间泛在、空间泛在,即任何人、在任何时间、任何地点都可以接入互联网。移动互联网的泛在性,使网民能实时现场传播舆情,一些在固定互联网上不易引发舆论热潮的事件可能会成为了舆情“触点”,且由于其传播的即时性,事件的“发酵”速度更快。虽然移动互联网舆情的载体仍然是以文本为主,但越来越多的网民喜欢发布随手拍录的图片、语音和视频,一些网民使用“长微博”工具将大篇幅文字制作成图片格式发布,导致网络舆情信息碎片化,同时图片、视频、音频舆情信息的比例增加,舆情信息的传播载体由单一的文字向富媒体形式转变。
[0003]移动互联网舆情的新特征给网民带来更加快捷多样真实的网络互动的同时,也给舆情管理带来了新的挑战。如何做好新媒体时代网络舆情监控引导宣传工作,从源头上发现、掌握舆情信息,有效应对易发多发的热点事件,是现在面临的一项重大挑战。因此,提出一种基于互联网数据采集的热点事件预测系统对网络热点事件进行预测。 >
技术实现思路
[0004]本专利技术的目的在于提供基于互联网数据采集的热点事件预测系统,用以解决以下技术问题:
[0005]如何提供一种能够准确的预测热点事件的预测系统。
[0006]本专利技术的目的可以通过以下技术方案实现:
[0007]基于互联网数据采集的热点事件预测系统,包括:
[0008]采集模块,用于采集主网络平台的各个实时事件的主实时关注数据;
[0009]比对模块一,用于将所述主实时关注数据与预先存储的各个不同舆情的历史热点事件数据进行比对,得出所述主实时关注数据与各个所述不同舆情的历史热点事件数据的主相似度;
[0010]筛选模块,用于接收所述主相似度并对所述主相似度从大到小进行排序,并将排列最大的主相似度与预设相似度阈值进行比较,筛选出主相似度不小于预设相似度阈值的主相似度对应的实时事件;
[0011]比对模块二,用于获取筛选出的所述实时事件在所述主网络平台之外的次网络平台的次实时关注数据,将所述次实时关注数据与预先存储的各个不同舆情的历史热点事件
数据进行比对,得出所述次实时关注数据与各个所述不同舆情的历史热点事件数据的次相似度;
[0012]整合模块,用于将所述主相似度与所述次相似度进行整合,生成所述实时事件与各个所述不同舆情的历史热点事件的匹配度;
[0013]预测模块,用于将所述匹配度与预设匹配度阈值进行判断分析然后发出预警信号。
[0014]优选地,所述主实时关注数据与预先存储的各个不同舆情的历史热点事件数据进行比对的过程为:
[0015]根据各个不同舆情的历史热点事件数据获取各个不同舆情的历史热点事件数据随时间变化的历史曲线;
[0016]根据主实时关注数据获取所述主实时关注数据随时间变化的实时曲线;
[0017]在线获取预设采集时间段的实时曲线,将所述历史曲线分成与所述预设采集时间段相同的多段历史子曲线,将所述实时曲线分别与多段所述历史子曲线进行比对,获取实时曲线与各段所述历史子曲线重合的曲线长度L
重合
、重合的像素点个数N
重合
以及在预设时间周期内的面积差的总和ΔS
总
。
[0018]优选地,所述主相似度SIM:
[0019][0020]其中,L
实时
为实时曲线的总长度,L
历史
为历史子曲线的总长度,N
历史
为历史子曲线的总像素点个数,S
实时
为实时曲线在预设采集时间段内的总面积,S
历史
为历史子曲线在预设采集时间段内内的总面积,σ1、σ2、σ3为预设权重系数,n为历史曲线分成的历史子曲线的段数,sim为实时曲线在预设采集时间段内与历史子曲线的相似度,sim1、sim2、sim3...sim
n
分别为实时曲线在预设采集时间段内与每段历史子曲线的相似度。
[0021]优选地,将所述主相似度与所述次相似度进行整合,生成所述实时事件与各个所述不同舆情的历史热点事件的匹配度的过程为:
[0022]接收所述主相似度并对所述主相似度从大到小进行排序,筛选出排列靠前的m个主相似度;
[0023]接收所述次相似度并对所述次相似度从大到小进行排序,筛选出排列靠前的m个次相似度;
[0024]将m个主相似度和m个次相似度进行整合得出匹配度。
[0025]优选地,所述匹配度Match:
[0026][0027]其中,SIM
i
为第i个主相似度,SIM
′
i
为第i个次相似度,A和B为预设权重系数,i∈(1,m)。
[0028]优选地,所述匹配度与预设匹配度阈值进行判断分析然后发出预警信号的过程为:
[0029]若匹配度Match不小于预设匹配度阈值Match0,则发出预警信号;
[0030]否则,进行下一预设采集时间段的实时事件的实时关注数据的采集。
[0031]优选地,所述预测系统还包括警示模块,所述警示模块用于根据所述比对模块一、比对模块二和整合模块,将排列靠前的m个主相似度和m个次相似度分别对应的历史热点事件进行标记,并将标记后的历史热点事件的历史发展数据作为所述实时事件的事件发展趋势参考模型进行警示。
[0032]优选地,所述历史发展数据包括历史热点事件的事件类型、事件时间段、事件动态发展状态、事件舆论走向和事件发展结果。
[0033]本专利技术的有益效果:
[0034]该基于互联网数据采集的热点事件预测系统,通过将实时事件的实时关注数据与不同舆情的历史热点事件数据进行比对,得出实时关注数据与各个所述不同舆情的历史热点事件数据的相似度,从而通过找到与实时关注数据相似度高的历史热点事件数据对应的已知的热点事件发生情况去预测当前事件发展情况,从而从源头上发现、掌握舆情信息,进而有效应对热点事件的发生。
附图说明
[0035]下面结合附图对本专利技术作进一步的说明。
[0036]图1为本专利技术的热点事件预测系统模块连接示意图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于互联网数据采集的热点事件预测系统,其特征在于,包括:采集模块,用于采集主网络平台的各个实时事件的主实时关注数据;比对模块一,用于将所述主实时关注数据与预先存储的各个不同舆情的历史热点事件数据进行比对,得出所述主实时关注数据与各个所述不同舆情的历史热点事件数据的主相似度;筛选模块,用于接收所述主相似度并对所述主相似度从大到小进行排序,并将排列最大的主相似度与预设相似度阈值进行比较,筛选出主相似度不小于预设相似度阈值的主相似度对应的实时事件;比对模块二,用于获取筛选出的所述实时事件在所述主网络平台之外的次网络平台的次实时关注数据,将所述次实时关注数据与预先存储的各个不同舆情的历史热点事件数据进行比对,得出所述次实时关注数据与各个所述不同舆情的历史热点事件数据的次相似度;整合模块,用于将所述主相似度与所述次相似度进行整合,生成所述实时事件与各个所述不同舆情的历史热点事件的匹配度;预测模块,用于将所述匹配度与预设匹配度阈值进行判断分析然后发出预警信号。2.根据权利要求1所述的基于互联网数据采集的热点事件预测系统,其特征在于,所述主实时关注数据与预先存储的各个不同舆情的历史热点事件数据进行比对的过程为:根据各个不同舆情的历史热点事件数据获取各个不同舆情的历史热点事件数据随时间变化的历史曲线;根据主实时关注数据获取所述主实时关注数据随时间变化的实时曲线;在线获取预设采集时间段的实时曲线,将所述历史曲线分成与所述预设采集时间段相同的多段历史子曲线,将所述实时曲线分别与多段所述历史子曲线进行比对,获取实时曲线与各段所述历史子曲线重合的曲线长度L
重合
、重合的像素点个数N
重合
以及在预设时间周期内的面积差的总和ΔS
总
。3.根据权利要求2所述的基于互联网数据采集的热点事件预测系统,其特征在于,所述主相似度SIM:主相似度SIM:其中,L
实时
为实时曲线的总长度,L
历史
为历史子曲线的总长度,N
历史
为历史子曲线的总像素点个数,S
实...
【专利技术属性】
技术研发人员:李小超,庞文俊,汤忠泽,
申请(专利权)人:清创网御合肥科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。