一种用于微博的突发特征检测方法及装置制造方法及图纸

技术编号:14383510 阅读:165 留言:0更新日期:2017-01-10 10:52
本发明专利技术公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。

【技术实现步骤摘要】

本专利技术涉及网络信息挖掘
,特别是涉及一种用于微博的突发特征检测方法及装置
技术介绍
近年来,随着web2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。微博用户数量众多,每天产生的信息量非常庞大。在微博中,人人都是信息的生产者和传播者,信息发布、转发非常便捷,这使得微博成为信息传播速度最快的网络媒体。社会上许多突发性话题,往往在微博平台上首发,借助其好友转发机制迅速传播,引起广泛的社会共鸣,进而波及传统媒体如新闻、论坛、博客等,产生巨大的社会影响。因此,微博平台上的社会突发话题检测技术,对于社会热点及时发现、网络民意尽快感知、突发事件及早响应等方面都具有积极的现实意义。与传统新闻话题相比,微博话题作为大众媒体的产物,具有自己显著的特点:(1)话题的多样性:同一时间,微博上各种话题,如社会事件类话题、娱乐八卦类话题、个人生活琐事等多种话题掺杂在一起,特别是一些生活琐事类话题,可能表现出一些周期性的突发特点,如周一“不想上班”,周末“出游计划”,月末“月光族”等话题。(2)话题的间歇性:同一个话题,通常会随着微博用户的关注程度和时间的推移经历一个产生、发展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的转发机制,导致海量的信息冗余,产生大量的滞后过期信息,这使得话题表现出一定的间歇性特征。鉴于微博的上述特点,传统的基于简单统计的突发特征检测方法识别准确率较低,不适用于微博信息的特征检测。如何针对微博信息噪音大、数据多样性的特点进行突发特征检测,现有技术尚无有效的解决方案。专利技术内容本专利技术要解决的技术问题是提供一种用于微博的突发特征检测方法及装置,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。一方面,本专利技术提供一种用于微博的突发特征检测方法,包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。可选的,所述根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征包括:提取所述信息流中的重复串;对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。可选的,将所述候选突发特征中的频繁伪突发特征滤除包括:将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;将所述第一频次序列变换到频域;根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。可选的,所述根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征包括:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。可选的,将所述候选突发特征中的间歇性伪突发特征滤除包括:将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。另一方面,本专利技术还提供一种用于微博的突发特征检测装置,包括:检测单元,用于根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;第一滤除单元,用于将所述候选突发特征中的频繁伪突发特征滤除;第二滤除单元,用于将所述候选突发特征中的间歇性伪突发特征滤除。可选您的,所述检测单元包括:提取模块,用于提取所述信息流中的重复串;邻接分析模块,用于对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;确定模块,用于如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。可选的,所述第一滤除单元包括:第一形成模块,用于将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;变换模块,用于将所述第一频次序列变换到频域;第一滤除模块,用于根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。可选的,所述识别和滤除模块,具体用于:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。可选的,所述第二滤除单元包括:第二形成模块,用于将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;趋势分析模块,用于通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;第二滤除模块,用于在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。本专利技术实施例提供的用于微博的突发特征检测方法及装置,能够根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,然后将候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除,从而能够针对微博信息噪音大、数据多样性的特点将相应的伪突发特征滤除,提高了微博突发特征检测的准确性。附图说明图1是本专利技术实施例提供的用于微博的突发特征检测方法的一种流程图;图2是本专利技术实施例提供的用于微博的突发特征检测方法的另一种流程图;图3是本专利技术实施例提供的用于微博的突发特征检测方法的又一种流程图;图4是本专利技术实施例提供的用于微博的突发特征检测装置的一种结构示意图。具体实施方式以下结合附图对本专利技术进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。如图1所示,本专利技术实施例提供的用于微博的突发特征检测方法,包括:S11,根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;S12,将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。本专利技术实施例提供的用于微博的突发特征检测方法,能够根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,然后将候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除,从而能够针对微博信息噪音大、数据多样性的特点将相应的伪突发特征滤除,提高了微博突发特征检测的准确性。需要说明的是,在微博信息中,存在着这样一类频繁特征,如“工作人员”,“上半年”,“短信”等,它们会周期性或者非周期性的频繁出现,但每天出现的频次不会特别高。由于语言的多样复杂性,这类频繁特征可以在多重语境中重复出现,偶尔呈现瞬时爆发增长趋势,但实际上并非真正的突发话题关键特征,称为频繁伪突发特征。频繁伪突发特征与真正的突发特征在短时间内都表现出明显的爆发趋势,但是频繁伪突发特征在历史信息中频繁而规律的出现,而突发特征在历史信息中出现情况不稳定。此外,微博话题还会呈现出一定的生存周期,有些话题的产生、发展、消亡是连续的,从话题产生开始到结束期间,每天都产生相关消息,而有些话题的发展是间歇性的,话题产生后沉寂几天才会有新的进展和消息,在话题存在的整个周期中,不一定每天都出现相关讨论本文档来自技高网...
一种用于微博的突发特征检测方法及装置

【技术保护点】
一种用于微博的突发特征检测方法,其特征在于,包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。

【技术特征摘要】
1.一种用于微博的突发特征检测方法,其特征在于,包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。2.根据权利要求1所述的方法,其特征在于,所述根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征包括:提取所述信息流中的重复串;对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。3.根据权利要求1所述的方法,其特征在于,将所述候选突发特征中的频繁伪突发特征滤除包括:将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;将所述第一频次序列变换到频域;根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征包括:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。5.根据权利要求1至4中任一项所述的方法,其特征在于,将所述候选突发特征中的间歇性伪突发特征滤除包括:将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。6.一种用于微博的突发特征检测装...

【专利技术属性】
技术研发人员:贺敏云晓春周勇林王丽宏程学旗包秀国马宏远丁丽杜攀刘悦赵立永杨建武
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1