The invention requests to protect a topic popularity prediction system and method based on user behavior. Its specific steps are: data acquisition, forwarding driving force, and dynamic model construction. Firstly, social network user data is captured by web crawler. Then, the individual and social forwarding driving forces that affect user forwarding are analyzed, and the multiple linear regression is used to quantify the forwarding driving probability. Secondly, considering that in real social networking sites, information dissemination has the characteristics of disseminating along the level of concern, the rules of information dissemination in SIR model are reconstructed. Finally, the quantified forwarding driving force is introduced into SIR model, and the dynamic process of infection rate caused by time characteristics is depicted by time slicing technology. The real parameters of the model are fitted by least squares method, and the trend of information popularity trend is constructed, and the number of information forwarding is predicted. The invention improves the accuracy of topic popularity prediction.
【技术实现步骤摘要】
一种基于用户行为的话题流行度预测系统及方法
本专利技术属于社交网络信息传播预测领域,主要涉及用户行为分析和量化,构建一种更真实的社交网络信息传播模型,并基于该模型预测话题的流行度。
技术介绍
随着互联网技术的发展,在线社交网络已逐渐成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大的影响。与此同时,社交网络中数据呈现爆炸式的增长趋势,使得一个话题或者一条消息在短时间内达到数百万的关注用户,从而发展成为高热度话题,诸如消息过载、虚假信息泛滥等问题也随之而来。而信息流行度的预测为分析和解决这一问题提供帮助,并成为研究的热点。在舆情监控上,预测话题信息态势变化有利于利支持网络安全预警和辅助决策;在网络营销方面,准确估计信息的流行度可以帮助商家合理的进行商品推荐和广告投放;在微博影响力评估上,预测信息流行度能够动态刻画热度态势变化趋势,进而应用于微博话题热搜排序。目前,关于流行度的研究主要集中于在线视频、微博、话题标签等。多数研究工作中,研究者通常将流行度定义量化为某种数量,如视频的观看数、微博的点赞数、话题标签的出现次数等。关于流行度的预测方法,主要包括三类:基于时间序列的方法、基于分类和回归的方法、基于传染病的方法。其中,基于传染病模型的方法是研究信息的传播过程和动力学成因的基础,也是信息流行度预测的一个重要工具。在线社交网络中,信息的传播过程类似生物学中传染病的传播过程,可以将信息视为传染病,进而对疾病在人群中的表现和分布式进行计算建模。传染病模型包括SI、SIS、SIR三类。前面提到信息传播的过程类似传染病的过程,但是仍然存在很多不同的地方。 ...
【技术保护点】
1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。
【技术特征摘要】
1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。2.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。3.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:个人转发驱动力:(1)个人关注度:value[attention(ui)](2)个人历史转发率:value[retweetRate(ui)](3)个人活跃度:value[activity(ui)]社交转发驱动力:(1)话题兴趣相似度:value[inteSimil(ui,w)](2)社交感染率:value[socInfRate(ui,uj)](3)社交影响力:value[socEffe(ui,vj)]。4.根据权利要求3所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:P(ui)=θ0+θ1Pindividual(ui)+θ2Psocial(ui)式(7)其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而代表不同属性下的最大值,U是话题用户集,以...
【专利技术属性】
技术研发人员:谢小秋,肖云鹏,杜江,刘宴兵,梁霞,帅杰,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。