一种基于用户行为的话题流行度预测系统及方法技术方案

技术编号:21247183 阅读:43 留言:0更新日期:2019-06-01 07:29
本发明专利技术请求保护一种基于用户行为的话题流行度预测系统及方法。它的具体步骤为:获取数据、转发驱动力量化、动力学模型构建三个部分。首先,通过网络爬虫抓取web中的内容获取社交网络用户数据。然后,分析影响用户转发的个人和社交转发驱动力,利用多元线性回归量化转发驱动概率。其次,考虑真实社交网站中,信息传播具有沿关注关系层级传播的特点,重构SIR模型中信息传播的规则。最后,将量化后的转发驱动力引入到SIR模型中,结合时间切片技术,刻画时间特性引起的感染率的动态变化过程,利用最小二乘法拟合模型真实参量,构建信息流行度态势变化趋势,预测信息转发数。本发明专利技术提高了话题流行度预测准确度。

A Prediction System and Method of Topic Popularity Based on User Behavior

The invention requests to protect a topic popularity prediction system and method based on user behavior. Its specific steps are: data acquisition, forwarding driving force, and dynamic model construction. Firstly, social network user data is captured by web crawler. Then, the individual and social forwarding driving forces that affect user forwarding are analyzed, and the multiple linear regression is used to quantify the forwarding driving probability. Secondly, considering that in real social networking sites, information dissemination has the characteristics of disseminating along the level of concern, the rules of information dissemination in SIR model are reconstructed. Finally, the quantified forwarding driving force is introduced into SIR model, and the dynamic process of infection rate caused by time characteristics is depicted by time slicing technology. The real parameters of the model are fitted by least squares method, and the trend of information popularity trend is constructed, and the number of information forwarding is predicted. The invention improves the accuracy of topic popularity prediction.

【技术实现步骤摘要】
一种基于用户行为的话题流行度预测系统及方法
本专利技术属于社交网络信息传播预测领域,主要涉及用户行为分析和量化,构建一种更真实的社交网络信息传播模型,并基于该模型预测话题的流行度。
技术介绍
随着互联网技术的发展,在线社交网络已逐渐成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大的影响。与此同时,社交网络中数据呈现爆炸式的增长趋势,使得一个话题或者一条消息在短时间内达到数百万的关注用户,从而发展成为高热度话题,诸如消息过载、虚假信息泛滥等问题也随之而来。而信息流行度的预测为分析和解决这一问题提供帮助,并成为研究的热点。在舆情监控上,预测话题信息态势变化有利于利支持网络安全预警和辅助决策;在网络营销方面,准确估计信息的流行度可以帮助商家合理的进行商品推荐和广告投放;在微博影响力评估上,预测信息流行度能够动态刻画热度态势变化趋势,进而应用于微博话题热搜排序。目前,关于流行度的研究主要集中于在线视频、微博、话题标签等。多数研究工作中,研究者通常将流行度定义量化为某种数量,如视频的观看数、微博的点赞数、话题标签的出现次数等。关于流行度的预测方法,主要包括三类:基于时间序列的方法、基于分类和回归的方法、基于传染病的方法。其中,基于传染病模型的方法是研究信息的传播过程和动力学成因的基础,也是信息流行度预测的一个重要工具。在线社交网络中,信息的传播过程类似生物学中传染病的传播过程,可以将信息视为传染病,进而对疾病在人群中的表现和分布式进行计算建模。传染病模型包括SI、SIS、SIR三类。前面提到信息传播的过程类似传染病的过程,但是仍然存在很多不同的地方。一方面,由于社交网络平台具有公开特性,在SIR模型中假设三种人群接近常数变得不合理。另一方面,在生物种群中,当一个个体感染某种疾病后,除了一些有抗体的免疫个体外,网络中其余个体是易感染者,其都有机会接触到感染个体。然而,在线社交网络中,消息是沿着关注关系传播的,只有用户关注者转发了这条消息,用户才有机会以粉丝的身份接收到信息,成为易感染者。所以说,网络中的易感染者大多数来自感染者的粉丝。考虑以上问题,我们基于传统SIR模型,引入过渡状态F,构建F-SIR模型,其中F表示感染者的粉丝,是感染者的粉丝到易感染的一个过渡状态。此外,传统SIR模型参数训练中,往往人为的设定固定的群体状态转换概率来构建完整的SIR预测传播网络。这样的话,一方面,人为设定的参数具有随机性且缺乏理论依据;另一方面,忽略了话题传播过程中时间特性引起的转换概率的动态变化,使得预测值和真实值有较大的差量。本专利技术从微观用户角度出发,提取用户个人和社交维度的转发驱动力,量化转发感染率,通过最小二乘算法训练获得模型参数。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高流行度预测的准确度的基于用户行为的话题流行度预测系统及方法。本专利技术的技术方案如下:一种基于用户行为的话题流行度预测系统,其包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体过渡用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。进一步的,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。进一步的,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:个人转发驱动力:(1)个人关注度:value[attention(ui)](2)个人历史转发率:value[retweetRate(ui)](3)个人活跃度:value[activity(ui)]社交转发驱动力:(1)话题兴趣相似度:value[inteSimil(ui,w)](2)社交感染率:value[socInfRate(ui,uj)](3)社交影响力:value[socEffe(ui,vj)]进一步的,所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:P(ui)=θ0+θ1Pindividual(ui)+θ2Psocial(ui)式(7)其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:关于κim中的m,令m分别取1,2,3,用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力。进一步的,所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F-SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;S312:根据以上的传播规则,动力学方程表示如下:方程中,表示当前时刻的平均转发概率,通过多元线性回归量化求得。进一步的,所述话题流行度预测模型中,结合F-SIR模型,利用最小二乘模型拟合真实值,求得话题传播动力学方程,实现信息流行度的预测,具体步骤如下:通过时间切片技术,设定切片窗口大小,统计各个时间窗口下对应的三个状态的真实值记为S(t+1)、I(t+1)、R(t+1),预测值用S'(t+1)、I'(t+1)、R'(t+1),则预测值和真实值的误差函数可以表示如下:其中,k表示训练集窗口长度,而R'(t+1)=R(t)+μ(t)I(t)式(14)为了最小化误差函数f,利用最小二乘法求未知参量,令偏导数为0,结果即为所求。一种基于所述系统的话题流行度预测方法,其包括以下步骤:数据源获取步骤、转发驱动力量化步骤及话题流行度预测步骤,其中,数据源获取步骤包括:从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化步骤包括:从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性本文档来自技高网
...

【技术保护点】
1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。

【技术特征摘要】
1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元性回归模型量化用户转发驱动力;话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数。2.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。3.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:个人转发驱动力:(1)个人关注度:value[attention(ui)](2)个人历史转发率:value[retweetRate(ui)](3)个人活跃度:value[activity(ui)]社交转发驱动力:(1)话题兴趣相似度:value[inteSimil(ui,w)](2)社交感染率:value[socInfRate(ui,uj)](3)社交影响力:value[socEffe(ui,vj)]。4.根据权利要求3所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:P(ui)=θ0+θ1Pindividual(ui)+θ2Psocial(ui)式(7)其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而代表不同属性下的最大值,U是话题用户集,以...

【专利技术属性】
技术研发人员:谢小秋肖云鹏杜江刘宴兵梁霞帅杰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1