一种基于少量数据的短期视频点播量预测系统技术方案

技术编号:10433988 阅读:234 留言:1更新日期:2014-09-17 11:43
本发明专利技术公开了一种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置,灵活调整系统所适应的运用环境;数据预处理模块可根据实际数据情况对日志数据进行序列化,形成样本序列数据库;随后,样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本;最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果,实现基于少量数据准确完成短期视频点播量预测的目标。

【技术实现步骤摘要】
一种基于少量数据的短期视频点播量预测系统
本专利技术涉及数据挖掘
,具体地说是一种基于少量数据的短期视频点播量预测系统。
技术介绍
随着IPTV、互联网视频网站、移动视频等业务的兴起、流行,视频点播业务对点播量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略,从而增加运营商收入并提高用户体验?如何做到对新上线的视频做出快速地预测,以满足当前快节奏生活所营造出的热点迁移速度?如何建立高性能的内容分发网络(CDN)来提高视频点播的体验?越来越多的视频节目开始趋向于在短期内吸引大量的点播量,并快速步入衰退期,如图1所示。所以,要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预测算法。传统的时间序列预测算法,如ARMA,需要收集待预测序列中大量的历史数据来学习参数,并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播量序列都难以满足。大量的点播量都集中在节目上线的早期,累积大量历史数据后再进行预测会使预测的价值降低,并且波动剧烈的序列早期阶段不满足平稳序列的要求。基于K最近邻回归(KNN)的学习方法,虽然可以通过学习其他类似样本,实现早期预测的目标,但是普通的欧氏距离难以为新节目找到合适的邻居,故预测效果较差。
技术实现思路
本专利技术的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点播量预测系统,该系统对新上映的视频点播量进行远超已有数据长度的预测,实现远优于KNN的预测效果。实现本专利技术目的的具体技术方案是:一种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,其中:所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred;所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集;所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列,具体包括:a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位,在数据库中筛选出长度大于等于2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集;b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理,并将经过平滑处理的部分存入平滑样本集。所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果,具体包括:a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序列SSnew;b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列,相似度计算公式如下:其中SSi表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的平移操作,当β>0时,序列SSi将会右移,并使用0填充序列的前β个单位,当β<0时,序列SSi将会左移,并使用0填充序列的后β个单位,β的取值范围为(-Ttrain+1,Ttrain-1);α为缩放参数,通过将上述公式对SSi的偏导置零求得最佳值,具体公式如下:c)记录与SSnew最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B;d)根据NID,在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合Sneighbor,计算这些邻居序列与Snew之间的最佳缩放系数c,并记录在集合D中,计算公式如下:公式中的Sneighbori[0:Ttrain]代表集合Sneighbor中的第i个序列的前Ttrain个元素所组成的子序列e)利用缩放系数集合D,以及最佳平移系数集合B,对邻居序列进行缩放和位移操作,并集合SIM中得相似度作为权重计算加权平均值,获得Smean,其计算公式如下:其中,ci代表集合D中的第i个缩放系数,βi代表集合B中得第i个平移系数,Sneighbori代表集合Sneighbor中的第i个序列;f)利用下述公式求得可使Smean的前Ttrain个单位所组成的序列与Snew距离最小化的最终预测结果Spred:其中Smean[0:Ttrain]表示Smean中前Ttrain个元素所组成的子序列,Smean[Ttrain:Ttrain+Tpred]表示Smean的后Tpred个元素所组成的子序列。本专利技术可以有效解决基于欧氏距离的KNN算法中的易受序列量级影响、易受高峰出现时间影响、易受噪声影响的三个缺点,提高预测准确率。使用一个由3126部视频组成训练集,728部视频组成测试集的数据集进行实验。在Ttrain=7天,Tpred=30天,K=17的参数配置情况下,与KNN以及目前领域内效果领先的随机森林回归算法(RF),在30天总量平均绝对误差(MAE)、30天总量平均绝对百分比误差(MAPE)以及预测序列的平均决定系数(R2)(越大越好)三个指标上进行比较,效果如下:可以看出本专利技术与现有技术相比,具有明显的提升。附图说明图1为视频节目点播量曲线示例图;图2为本系统流程图。具体实施方式参阅图2,本专利技术包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,配置文件及原始系统日志为用户需要准备的原始数据,本系统的预测结果将分别可被普通用户层的可视化展示界面以及开发者层的数据接口调用。本系统各模块的工作过程如下:1)系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位本文档来自技高网...
一种基于少量数据的短期视频点播量预测系统

【技术保护点】
一种基于少量数据的短期视频点播量预测系统,其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,其中:所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred;所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集;所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。...

【技术特征摘要】
1.一种基于少量数据的短期视频点播量预测系统,其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,其中:所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred;所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集;从样本序列数据库中选择符合限制条件的样本序列,具体包括:a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位,在数据库中筛选出长度满足2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集;b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理,并将经过平滑处理的部分存入平滑样本集;所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果;具体包括:a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序列SSnew;b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列,相似度计算公式如下:其中SSi表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的平...

【专利技术属性】
技术研发人员:贺樑陈昊向平李明耀杨辰翌陈琴
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有1条评论
  • 来自[广东省深圳市电信] 2015年03月23日 01:05
    禾本科披碱草属中的一个种,学名ElymusdahuricusTurcz.,多年生草本植物,为本属重要的栽培牧草之一,广泛分布在中国东北、内蒙古、河北、陕西、甘肃、宁夏、青海等省区,朝鲜、日本、蒙古、苏联也有分布。苏联在二十世纪初引入栽培。中国于1954年由崔有文推荐,在华北及西北地区栽培,嗣后,原内蒙古草原研究所,在锡林郭勒种畜场进行较大面积试种。从七十年代以来,该草已在中国华北、内蒙古及东北部逐渐推广,并开始成为主要牧草品种。
    0
1