【技术实现步骤摘要】
一种基于自回归模型的在线连载内容流行度预测方法
本专利技术涉及在线连载内容流行度预测
,具体来说是一种基于自回归模型的在线连载内容流行度预测方法。
技术介绍
随着现代因特网的发展,在线分享内容成为了人们日常生活娱乐的重要部分。作为在线内容的一个重要组成形式,在线连载内容指的是那些包含很多集并持续定期更新的内容,如电视连续剧、综艺娱乐节目、动画片、连载小说等。越来越多的网络服务提供商或网站(如优酷、爱奇艺、腾讯视频、起点中文网、红袖添香等)直接向用户提供在线连载内容,并和其他来源(如电视台)保持在线同步。例如,优酷作为国内最大的视频网站,提供了许多地区或国家的电视剧、动画片、娱乐节目,并会同步或推迟一段时间更新。图1是根据优酷内部收录的电视剧信息绘制的上映第一周每集平均播放量趋势图,从图1可以明显看到电视剧播放量有着明显的增长趋势。沿着这样的思路,一个很重要的需求是如何预测连载内容的流行度,它可以扩展更多的应用,如流行内容推荐、用户行为分析与理解、在线流量管理(缓存流行的内容,提升访问速度)等。谷歌公布了一项重要研究成果——电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。实现提前一个月预测的关键在于:谷歌采用了一项新的指标——电影预告片的搜索量。谷歌发现,预告片的搜索量比起电影的直接搜
【技术保护点】
一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,包括以下步骤: 11)训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码; 12)流行度预测,利用自回归模型预测新连载内容的流行度。
【技术特征摘要】
1.一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,包括以下步骤:11)训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;12)流行度预测,利用自回归模型预测新连载内容的流行度;所述的流行度预测利用转移模型进行新连载内容流行度的预测,包括以下步骤:121)定义变量,定义连载内容为n,第i集在第j个相对时间间隔的流行度为Vij,来自追剧者的浏览量为aij,来自新增者的浏览量为bij,第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为pijk,第i集第j个相对时间间隔的新增者在第k个相对时间间隔观看第i+1集的概率为qijk,其中k>=j,当i=1时,则122)转移模型的公式如下:其中对于任意的i、j、k,则pijk=pi,j+1,k+1qijk=qi,j+1,k+1;123)求解bij,去除该剧集新增的追剧者随着新集的上映又流失的人数,bij随着i的增加而有减少的趋势,故bij=b0jexp-αi其中α是衰减因子,b0j为在第j个相对时间间隔时连载内容的初始关注度;124)根据α和b0j修改转移模型的公式,如下:其中b0=(b01,...,b0j),p=(p111,p112,...,pi-1,jj),q=(q111,q112,...,qi-1,jj)。2.根据权利要求1所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的流行度预测利用朴素自回归模型进行新连载内容流行度的预测,朴素自回归模型公式如下:其中w=(ω0,ω1,...,ωr)T,w为权重向量,V为数值向量,r为模型的秩。3.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的朴素自回归模型中模型参数的学习包括以下步骤:31)定义共享参数,给定连载内容集合S和它们的流行度记录E={E1,E2,...,E|S|},则其中为连载内容n第i集的流行度记录;32)利用最小化平均相对平方误差来学习共享参数,其公式如下:其中为流行度真实值。4.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的朴素自回归模型中模型参数的学习的方法如下:定义私有参数,加入惩罚项,其公式如下:其中||w||2=wTw=ω02+ω12+...+...
【专利技术属性】
技术研发人员:常标,祝恒书,谭昶,陈恩红,刘淇,熊辉,
申请(专利权)人:中国科学技术大学先进技术研究院,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。