一种站点流量预测方法和装置制造方法及图纸

技术编号:26262613 阅读:47 留言:0更新日期:2020-11-06 18:01
本发明专利技术公开了一种站点流量预测方法和装置,通过获取日志数据,为了更方便的获取有效数据,基于日志数据,分别根据卡尔曼滤波算法和支持向量机SVM来计算出预测值,对比实际流量值计算权值,构建并联组合模型,根据日志数据中的流量序列来建立预测模型,并得到预测的站点网络流量值,使用测试数据来检验模型预测的精度。通过对比卡尔曼预测,SVM预测,以及基于卡尔曼和SVM的并联组合模型预测三者的结果,由此证明得到采用组合算法来对网络流量进行预测,弥补传统时间序列模型单一预测的不足,这种并联组合模型预测流量的结果也是可靠有效的,更适用于预测站点流量。此并联组合模型能够应用于高性能计算环境下对网络流量的预测。

【技术实现步骤摘要】
一种站点流量预测方法和装置
本专利技术属于网络流量监测领域,具体涉及一种站点流量预测方法和装置。
技术介绍
互联网的蓬勃发展,站点业务量的增加和用户的不断积累,网站的网络流量呈现出复杂多变的特点,对站点流量预测结果的有效性要求越来越高,然而对于高性能计算环境下作业管理系统日志流量的特点和预测需求等因素,常见的单一预测方法已经无法满足可靠有效性要求,站点流量数据的预测结果不可靠,无效,则会对站点的运行状态和网络维护造成影响。
技术实现思路
本专利技术的目的在于提供一种站点流量预测方法和装置,以克服现有技术的不足。为达到上述目的,本专利技术采用如下技术方案:一种站点流量预测方法,包括以下步骤:步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;步骤3)、将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测。进一步的,步骤1)中,基于Cloudera构建站点日志数据处理模块的分布式系统基础架构和Spark集群,使用Zookeeper来进行协调服务,提供分布式的可靠协议,然后对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,统计出基于时间序列的流量数据。进一步的,使用卡尔曼滤波方法和SVM方法建立并联组合模型。进一步的,具体包括以下步骤:a、通过卡尔曼滤波方法获取流量在第t时刻的预测值x1t,利用SVM方法获取流量在第t时刻的预测值x2t,t为时间间隔;b、计算在t时刻的组合预测值:为t时刻并联组合预测值,w1、w2分别为卡尔曼滤波预测模型和SVM预测模型的加权系数,且w1+w2=1;c、计算在t时刻卡尔曼方法的预测绝对误差为e1t,在t时刻SVM方法的预测绝对误差为e2t,通过在t时刻卡尔曼方法的预测绝对误差和t时刻SVM方法的预测绝对误差即可得到并联组合模型的组合预测误差et,xt为t时刻并联组合理论值;以组合预测误差et的平方和为最小目标即可得到最优权重系数;d、通过计算多个不同时刻的组合预测误差,即可得到多个时刻下的最优权重系数,取多个时刻下的最优权重系数的均值得到最优权重比例系数。进一步的,在t时刻卡尔曼方法的预测绝对误差e1t=|xt-x1t|,t时刻SVM方法的预测绝对误差e2t=|xt-x2t|。进一步的,通过Sparkstreaming流式处理集群来进行日志数据的清洗和统计分析,提取基于时间序列的站点流量数据作为实验数据和测试数据。一种站点流量预测装置,包括数据获取模块、数据处理模块和数据预测模块,数据获取模块用于获取站点的日志数据,并将获取的日志数据传输至数据处理模块;数据处理模块用于对收到的日志数据进行清洗整理统计出基于时间序列的流量数据;数据预测模块用于根据日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数,并通过最优权重比例系数的并联组合预测模型利用历史流量数据实现站点流量的预测。进一步的,数据处理模块采用分布式系统基础架构和Spark集群,使用Zookeeper进行协调服务,提供分布式的可靠协议,构建Hadoop分布式文件系统。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术一种站点流量预测方法,通过获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数,将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测,基于两种并联模式并联组合预测模型的流量预测方法,降低数据预测的单向因素影响,大大提高了流量预测的准确度,本专利技术能够应用于高性能计算环境下,提高站点的运行状态和网络维护的效率。进一步的,基于卡尔曼滤波和支持向量SVM的并联组合模型对流量的预测与实际流量值误差更小,预测结果更加有效。进一步的,选择RBF函数作为SVM的核函数,RBF函数可以将样本非线性规划到更高维的空间中,且核函数的参数较少,模型简单,限制条件少,既可以保证实现的方便性又可以达到预测效果。附图说明图1是本专利技术实施例中日志数据处理平台架构图。图2是本专利技术实施例中并联组合预测流量结构图。图3是本专利技术实施例中卡尔曼滤波算法预测对比实验图。图4是本专利技术实施例中支持向量机SVM预测对比实验图。图5是本专利技术实施例中并联组合预测模型的实验对比图。具体实施方式下面结合附图对本专利技术做进一步详细描述:如图1所示,一种站点流量预测方法,包括以下步骤:步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;将整理统计出的流量数据作为训练数据和测试数据;具体的,首先构建站点日志数据处理平台,对数据进行清洗和分析,即基于Cloudera构建站点日志数据处理模块的Hadoop(分布式系统基础架构)和Spark集群,使用Zookeeper来进行协调服务,提供分布式的可靠协议,其中ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件,它可以为分布式应用提供一致性服务例如:配置维护、域名服务、分布式同步和组服务;然后部署SparkonYarn(集群模式)来实现数据的实时处理,对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,统计出基于时间序列的流量数据,完成数据清洗和数据分析;最后统计日志数据的时间和流量字段作为实验数据,整理后存储HBase数据库中。步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;本申请使用卡尔曼滤波方法和SVM方法建立并联组合模型;具体包括以下步骤:a、通过卡尔曼滤波方法获取流量在第t时刻的预测值x1t,利用SVM方法获取流量在第t时刻的预测值x2t,t为时间间隔;b、计算在t时刻的组合预测值:为t时刻并联组合预测值,w1、w2分别为预测模型的加权系数,且w1+w2=1;c、计算在t时刻卡尔曼方法的预测绝对误差为e1t,在t时刻SVM方法的预测绝对误差为e2t,通过在t时刻卡尔曼方法的预测绝对误差和t时刻SVM方法的预测绝对误差即可得到并联组合模型的组合预测误差et,xt为t时刻并联组合理论值;以组合预测误差et的平方和为最小目标即可得到最优权重系数,根据最优权重系数进而得到最优的组合预测值。其中预测绝对误差记为eit=|xt-xit|,i=1、2。d、通过计算多个不同时刻的组合预测误差,即可得到多个时刻下的最优权重系数,取多个时刻下的最优权重系数的均值得到最优权重比例本文档来自技高网...

【技术保护点】
1.一种站点流量预测方法,其特征在于,包括以下步骤:/n步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;/n步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;/n步骤3)、将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测。/n

【技术特征摘要】
1.一种站点流量预测方法,其特征在于,包括以下步骤:
步骤1)、获取站点的日志数据,对日志数据进行数据清洗整理统计出基于时间序列的流量数据;
步骤2)、建立并联组合预测模型,利用日志数据中的流量序列对并联组合预测模型进行优化得到最优权重比例系数;
步骤3)、将历史流量数据代入基于最优权重比例系数的并联组合预测模型实现站点流量的预测。


2.根据权利要求1所述的一种站点流量预测方法,其特征在于,步骤1)中,基于Cloudera构建站点日志数据处理模块的分布式系统基础架构和Spark集群,使用Zookeeper来进行协调服务,提供分布式的可靠协议,然后对重复的日志数据和非必要的日志数据进行剔除,对空缺的数值进行补全,将原始的日志数据转化为结构化的日志数据,统计出基于时间序列的流量数据。


3.根据权利要求1所述的一种站点流量预测方法,其特征在于,使用卡尔曼滤波方法和SVM方法建立并联组合模型。


4.根据权利要求3所述的一种站点流量预测方法,其特征在于,具体包括以下步骤:
a、通过卡尔曼滤波方法获取流量在第t时刻的预测值x1t,利用SVM方法获取流量在第t时刻的预测值x2t,t为时间间隔;
b、计算在t时刻的组合预测值:为t时刻并联组合预测值,w1、w2分别为卡尔曼滤波预测模型和SVM预测模型的加权系数,且w1+w2=1;
c、计算在t时刻卡尔曼方法的预测绝对误差为e1t,在t时刻SVM方法的预测绝对误差为e2t,通过在t时刻卡尔曼方法的预测绝对误差和t时刻SVM方法的预测绝对误差即可得到并联组合模型的组合预测误...

【专利技术属性】
技术研发人员:伍卫国冯培坤柴玉香张祥俊杨诗园王雄
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1