本发明专利技术涉及网站数据统计分析技术领域,具体公开了一种基于历史走势权重的网站访问量预测方法;数据预处理,将访问量取对数,计算历史走势各时间点的方差,计算第i个历史走势对当前走势的回归系数,计算用第i个历史走势估计当前值相关系数的方差,用优化最小化方法估计偏差求解权重,根据权重预测当前走势之后的值,预测结果处理,将预测结果进行指数变换。本发明专利技术用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。
【技术实现步骤摘要】
一种基于历史走势权重的网站访问量预测方法
本专利技术涉及网站数据统计分析
,尤其是涉及一种基于历史走势权重的网站访问量预测方法。
技术介绍
网站访问量是指网站流量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。网页浏览量,也称页面浏览量,英文PageView,简称为PV,是评价网站流量最常用的指标之一。通常用于衡量一个网络新闻频道或网站甚至一条网络新闻的网站流量。监测网站PV的变化趋势、分析其变化原因及进行预测是很多站长定期要做的工作。在对网站访问量进行预测时,网站每天的访问量走势有一定规律,历史访问量走势对当天的访问量走势的预测有很大的借鉴意义。但不同日期的访问量走势会有明显的差异,如工作日、周末的不同;有些日期具有这些明显不同类型日子的中间特征,如上半天的工作日、企业与政府部门工作休息日期的不同。在对具有周期性的走势做预测时,有时周期内的走势有一定连贯性,但又不是某种函数关系,不同周期的走势比较相似,周期内、周期间都还有一定随机性。进行这类预测时,历史走势是有很好的参考,但历史走势又有着多样性。如果在周期内对历史走势做线性回归或非线性回归,过于牵强,进行外推时误差会很大。如果在多个周期内对历史走势进行趋势回归,周期间的趋势会放大;且没有很好地利用历史走势这个“经验库”,无法从“经验库”中找到合适的例子做预测参考。如果采用K近邻近似进行预测,在周围邻居分布不均匀时,估计值偏差会较大。目前,现有技术中还没有有效的解决办法。
技术实现思路
本专利技术所解决的技术问题是提供一种基于历史走势权重的网站访问量预测方法,本专利技术解决了具有一定连贯性、相似性的周期性走势的预测问题。本专利技术用已知的当前走势与历史走势进行对比,可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。为了解决上述技术问题,本专利技术提供了一种基于历史走势权重的网站访问量预测方法,包括:S1.a:将所述当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量走势已知,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号,所述时间间隔也称为取样间隔;S1.b:将所述历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量走势已知,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;所述S1.a步骤和所述S1.b步骤顺序不分先后;S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述j=K+1、……、M;S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;S2.2:计算网站浏览量的实际访问量的对数的方差;σj2=1N-1Σi=1N(Xij-X‾j)2,]]>其中所述X‾j=1NΣi=1NXij,]]>所述j=1、2、……、K;S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;其中所述i=1、2、……、N;S2.4:根据网站浏览量的实际访问量的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;si2=1KΣj=1K((ci*Xij-yj)2+(1-ci)2*Xij2+σj2),]]>其中所述i=1、2、……、N;S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;min1KΣj=1K(Σi=1Nwi*Xij-yi)2+Σi=1Nwi2*si2]]>s.t.Σi=1Nwi=1-1≤wi≤1,i=1,2,...,N]]>S2.6:根据权重预测当前时间点之后走势的访问量的对数;其中所述j=K+1、K+2、……、M;S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问量为优选地,所述预测结果处理中所述中所述a的取值与所述数据预处理时以所述a为底数的对数变换的所述a取相同的值。更加优选地,所述a>0,且所述a≠1。更加优选地,所述yj中所述j单位为分钟或小时。更加优选地,所述Xij中所述i单位为天、周或月。本专利技术与现有技术相比,具有如下有益效果:本专利技术提供了一种基于历史走势权重的网站访问量预测方法,本专利技术解决了具有一定连贯性、相似性的周期性走势的预测问题。本专利技术用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到了比较可靠的预测。附图说明图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程图;图2示例性地示出了实际值与回归的预测值的对比图;图3示例性地示出了一天的预测值与实际值的预测效果对比图。具体实施方式为了更好地理解本专利技术所解决的技术问题、所提供的技术方案,以下结合附图及实施例,对本专利技术进行进一步详细说明。此处所描述的具体实施例仅用以解释本专利技术的实施,但并不用于限定本专利技术。在优选的实施例中,图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程;用某段时间的PV数据说明预测效果,历史数据取29天,每天中拿出连续的36个PV值,已知当前30个PV值,预测后6个PV值。1、如表1所示:取历史29天中每天连续的36个PV值,时间间隔为每5分钟一个;表1、历史29天PV值取值表2、如表2所示,取当前连续的30个PV值,时间间隔为每5分钟一个;表2、当前PV值取值表计算方法:1、对表1和表2中PV值取以10为底的对数;2、根据表1中历史29天PV值以10为底的对数和当前PV值以10为底的对数计算每天PV值以10为底的对数的方差,结果如表3所示:表3、根据历史29天计算各时间点PV值取对数的方差结果表3、根据当前PV值的对数分别与历史29天的PV值的对数计算回归系数,其中当前PV值的对数为因变量,历史29天每天PV值的对数为自变量;回归系数结果如表4所示:表4、回归系数结果表4、根据回归系数、各时间点PV值取对数的方差计算历史29天每天估计当前PV值的对数的偏差,结果如表5所示:表5、每天估计当前PV值的对数的偏差结果表5、根据历史29天每天估计当前PV值的对数的偏差计算历史2本文档来自技高网...
【技术保护点】
一种基于历史走势权重的网站访问量预测方法,其特征在于,包括:S1.a:将所述当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号,所述时间间隔也称为取样间隔;S1.b:将所述历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;所述S1.a步骤和所述S1.b步骤顺序不分先后;S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述j=K+1、……、M;S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;S2.2:计算网站浏览量的实际访问量的对数的方差;σj2=1N-1Σi=1N(Xij-X‾j)2,]]>其中所述X‾j=1NΣi=1NXij,]]>所述j=1、2、……、K;S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;其中所述i=1、2、……、N;S2.4:根据网站浏览量的实际访问量的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;si2=1KΣj=1K((ci*Xij-yj)2+(1-ci)2*Xij2+σj2),]]>其中所述i=1、2、……、N;S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;min1KΣj=1K(Σi=1Nwi*Xij-yi)2+Σi=1Nwi2*si2]]>s.t.Σi=1Nwi=1-1≤wi≤1,i=1,2,...,N]]>S2.6:根据权重预测当前时间点之后走势的访问量的对数;其中所述j=K+1、K+2、……、M;S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问量为...
【技术特征摘要】
1.一种基于历史走势权重的网站访问量预测方法,其特征在于,包括:S1.a:将当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号;S1.b:将历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;所述S1.a步骤和所述S1.b步骤顺序不分先后;S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述j=K+1、……、M;S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;S2.2:计算网站浏览量的实际访问量的对数的方差;其中所述所述j=1、2、……、K;S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;其中所述i=...
【专利技术属性】
技术研发人员:胡勇,
申请(专利权)人:北京齐尔布莱特科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。