一种基于自回归模型的在线连载内容流行度预测方法技术

技术编号:10196144 阅读:343 留言:0更新日期:2014-07-10 22:57
本发明专利技术涉及一种基于自回归模型的在线连载内容流行度预测方法,与现有技术相比解决了没有针对在线连载内容流行度预测方法的缺陷。本发明专利技术包括以下步骤:训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;流行度预测,利用自回归模型预测新连载内容的流行度。本发明专利技术可以实现针对在线连载内容的流行度预测,作为转移模型的衍生物,利用它的模型参数设计出一个新的评估连载内容质量的指标,对于内容推荐有重要意义。

【技术实现步骤摘要】
一种基于自回归模型的在线连载内容流行度预测方法
本专利技术涉及在线连载内容流行度预测
,具体来说是一种基于自回归模型的在线连载内容流行度预测方法。
技术介绍
随着现代因特网的发展,在线分享内容成为了人们日常生活娱乐的重要部分。作为在线内容的一个重要组成形式,在线连载内容指的是那些包含很多集并持续定期更新的内容,如电视连续剧、综艺娱乐节目、动画片、连载小说等。越来越多的网络服务提供商或网站(如优酷、爱奇艺、腾讯视频、起点中文网、红袖添香等)直接向用户提供在线连载内容,并和其他来源(如电视台)保持在线同步。例如,优酷作为国内最大的视频网站,提供了许多地区或国家的电视剧、动画片、娱乐节目,并会同步或推迟一段时间更新。图1是根据优酷内部收录的电视剧信息绘制的上映第一周每集平均播放量趋势图,从图1可以明显看到电视剧播放量有着明显的增长趋势。沿着这样的思路,一个很重要的需求是如何预测连载内容的流行度,它可以扩展更多的应用,如流行内容推荐、用户行为分析与理解、在线流量管理(缓存流行的内容,提升访问速度)等。谷歌公布了一项重要研究成果——电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。实现提前一个月预测的关键在于:谷歌采用了一项新的指标——电影预告片的搜索量。谷歌发现,预告片的搜索量比起电影的直接搜索量而言,可以更好的预测首周票房表现。这一点不难理解,因为在电影放映前一个月的时候,人们往往更多地搜索预告片。然而仅使用预告片的搜索量仍然不够,因此谷歌的模型最终采用了三类指标:(1)电影预告片的搜索量;(2)同系列电影前几部的票房表现;(3)档期的季节性特征。其中每类指标又包含了多项类内指标。在获取到每部电影的这些指标后,谷歌构建了一个线性回归模型(linearregressionmodel)模型,来建立这些指标和票房收入的关系。线性模型虽然简单,但已经达到了很高的准确度(94%)。简单且效果好,是我们在实际应用中一直追求的。和电影、传统的用户产生内容不同,在线连载内容具有自己的特性:即流行度序列依赖性、上映时间依赖性以及不同步的上映频率。例如,对于电视剧,相邻集的剧情很关联,这样就有可能使它们的观众大部分一样,相邻集的播放量也会有相关性,而且在周末或假期上映的集的播放量一般比在工作日上映的集的播放量要多,同时电视剧又是隔一段时间(如一天、一周)更新几集。这样连载内容流行度的预测问题就成为了一个多序列预测问题。时间序列预测问题有很多经典的模型。例如自回归模型(英语:Autoregressivemodel,简称AR模型),是统计上一种处理时间序列的方法,用同一变量例如x的之前各值,亦即x1至xt-1来预测本期xt的表现,并假设它们具有线性关系。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测x(自己),所以叫做自回归。自回归模型被广泛运用在经济学、信息学、自然现象的预测上。向量自回归模型(英语:VectorAutoregressionmodel,简称VAR模型)是一种常用的计量经济模型,由计量经济学家和宏观经济学家克里斯托弗·西姆斯(英语:ChristopherSims)提出。它扩充了只能使用一个变量的自回归模型(简称:AR模型),使容纳大于1个变量,因此经常用在多变量时间序列模型的分析上。VAR模型描述在同一样本期间内的n个变量(内生变量)可以作为它们过去值的线性函数。自回归滑动平均模型(英语:Autoregressivemovingaveragemodel,简称:ARMA模型),是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。在市场研究中常用于长期追踪资料的研究,如:Panel研究中,用于消费行为模式变迁研究;在零售研究中,用于具有季节变动特征的销售量、市场规模的预测等。ARIMA模型(英语:AutoregressiveIntegratedMovingAveragemodel),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。但是,由于连载内容每集有不同的上映时间,上述时间序列预测模型不能有效的解决连载内容流行度的预测问题。因此如何开发出一种针对在线连载内容的流行度预测方法已经成为急需解决的技术问题。
技术实现思路
本专利技术的目的是为了解决现有技术中没有针对在线连载内容流行度预测方法的缺陷,提供一种基于自回归模型的在线连载内容流行度预测方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:一种基于自回归模型的在线连载内容流行度预测方法,包括以下步骤:训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;流行度预测,利用自回归模型预测新连载内容的流行度;所述的流行度预测利用转移模型进行新连载内容流行度的预测,包括以下步骤:定义变量,定义连载内容为n,第i集在第j个相对时间间隔的流行度为Vij,来自追剧者的浏览量为aij,来自新增者的浏览量为bij,第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为pijk,第i集第j个相对时间间隔的新增者在第k(k>=j)个相对时间间隔观看第i+1集的概率为qijk,其中k>=j,当i=1时,则转移模型的公式如下:其中对于任意的i、j、k,则pijk=pi,j+1,k+1qijk=qi,j+1,k+1;求解bij,去除该剧集新增的追剧者随着新集的上映又流失的人数,bij随着i的增加而有减少的趋势,故bij=b0jexp-αi其中α是衰减因子,boj为在第j个相对时间间隔时连载内容的初始关注度;根据α和boj修改转移模型的公式,如下:其中b0=(b01,...,b0j),p=(p111,p112,...,pi-1,jj),q=(q111,q112,...,qi-1,jj)。所述的流行度预测利用朴素自回归模型进行新连载内容流行度的预测,朴素自回归模型公式如下:...
一种基于自回归模型的在线连载内容流行度预测方法

【技术保护点】
一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,包括以下步骤: 11)训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码; 12)流行度预测,利用自回归模型预测新连载内容的流行度。

【技术特征摘要】
1.一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,包括以下步骤:11)训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;12)流行度预测,利用自回归模型预测新连载内容的流行度;所述的流行度预测利用转移模型进行新连载内容流行度的预测,包括以下步骤:121)定义变量,定义连载内容为n,第i集在第j个相对时间间隔的流行度为Vij,来自追剧者的浏览量为aij,来自新增者的浏览量为bij,第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为pijk,第i集第j个相对时间间隔的新增者在第k个相对时间间隔观看第i+1集的概率为qijk,其中k>=j,当i=1时,则122)转移模型的公式如下:其中对于任意的i、j、k,则pijk=pi,j+1,k+1qijk=qi,j+1,k+1;123)求解bij,去除该剧集新增的追剧者随着新集的上映又流失的人数,bij随着i的增加而有减少的趋势,故bij=b0jexp-αi其中α是衰减因子,b0j为在第j个相对时间间隔时连载内容的初始关注度;124)根据α和b0j修改转移模型的公式,如下:其中b0=(b01,...,b0j),p=(p111,p112,...,pi-1,jj),q=(q111,q112,...,qi-1,jj)。2.根据权利要求1所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的流行度预测利用朴素自回归模型进行新连载内容流行度的预测,朴素自回归模型公式如下:其中w=(ω0,ω1,...,ωr)T,w为权重向量,V为数值向量,r为模型的秩。3.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的朴素自回归模型中模型参数的学习包括以下步骤:31)定义共享参数,给定连载内容集合S和它们的流行度记录E={E1,E2,...,E|S|},则其中为连载内容n第i集的流行度记录;32)利用最小化平均相对平方误差来学习共享参数,其公式如下:其中为流行度真实值。4.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,所述的朴素自回归模型中模型参数的学习的方法如下:定义私有参数,加入惩罚项,其公式如下:其中||w||2=wTw=ω02+ω12+...+...

【专利技术属性】
技术研发人员:常标祝恒书谭昶陈恩红刘淇熊辉
申请(专利权)人:中国科学技术大学先进技术研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1