The invention provides a detection method of microblog burst topic based on burst word detection and filtering. The method includes three parts: the detection of burst words based on the calculation of word burst value, the recognition of pseudo burst words based on the calculation of burst index average, and the recognition of burst topics based on the similarity of topic keywords and burst words. The theoretical system is complete and innovative, which is mainly used in social network text processing. The invention provides a solution for the detection of microblog sudden topic, and has high practical value.
【技术实现步骤摘要】
基于突发词检测和过滤的微博突发话题检测方法
本专利技术属于互联网
,具体涉及一种突发话题检测方法。
技术介绍
近年来,随着Web2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。突发话题在微博中传播速度非常迅速,能够产生巨大的影响力,因此,微博平台上的社会突发话题检测技术对于社会热点的及时发现、网络民意的尽快感知、突发话题及早响应等方面都具有积极的现实意义。然而,目前对于微博的突发话题检测而言依旧存在一些挑战。首先,微博上话题具有多样性。同一时间微博上各种话题如社会话题类话题、娱乐八卦类话题、个人生活琐事等多种话题掺杂在一起,存在大量对于话题检测而言无意义的信息。其次,微博上有的话题表现出间歇性。通常同一个话题会随着微博用户的关注程度和时间的推移经历一个产生、发展、成熟、衰退和消亡的完整生命周期。通常这个生命周期是连续的,但是一些话题在产生后会沉寂两到三天,之后随着相关的后续消息出现再次出现。本专利技术提出了基于突发词检测和过滤的微博突发话题检测方法。从两个方面进行研究。突发词提取上,综合考虑了词的基本权重和突发权重,利用词出现频次、包含词的微博数、词出现频次的增长速度计算词的突发值;利用词突发值趋势分析的方法,计算短期突发值的均值与长期突发值的均值的差,过滤无效的突发词。本专利技术能够更加准确地检测突发话题。
技术实现思路
本专利技术所提出的基于突发词检测和过滤的微博突发话题检测方法分为三个部分:突发词的提取、伪突发词的过滤和突发话题 ...
【技术保护点】
1.一种基于突发词检测和过滤的微博突发话题检测方法,其特征在于,该方法包括:/n基于词突发值计算的突发词检测;/n基于突发值指数平均值的伪突发词识别;/n基于话题关键字和突发词相似度的突发话题识别。/n
【技术特征摘要】
1.一种基于突发词检测和过滤的微博突发话题检测方法,其特征在于,该方法包括:
基于词突发值计算的突发词检测;
基于突发值指数平均值的伪突发词识别;
基于话题关键字和突发词相似度的突发话题识别。
2.根据权利要求1所述的方法,其特征在于,根据分词结果计算词在一个时间片的突发值:
在一个时间片内,获取一个词的累计词频、词频最高的词的词频、包含这个词的文档和时间片内总文档数,并计算词的累计词频与最高词频的比值、包含词的文档数与总文档数比值,对两个比值进行加权处理,以输出词的基本权重。
计算词...
【专利技术属性】
技术研发人员:薛哲,杜军平,张强,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。