一种基于少量数据的短期视频点播量预测系统技术方案

技术编号：10433988 阅读：249 留言：1更新日期：2014-09-17 11:43

本发明专利技术公开了一种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置，灵活调整系统所适应的运用环境；数据预处理模块可根据实际数据情况对日志数据进行序列化，形成样本序列数据库；随后，样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本；最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果，实现基于少量数据准确完成短期视频点播量预测的目标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于少量数据的短期视频点播量预测系统
本专利技术涉及数据挖掘
，具体地说是一种基于少量数据的短期视频点播量预测系统。
技术介绍
随着IPTV、互联网视频网站、移动视频等业务的兴起、流行，视频点播业务对点播量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略，从而增加运营商收入并提高用户体验？如何做到对新上线的视频做出快速地预测，以满足当前快节奏生活所营造出的热点迁移速度？如何建立高性能的内容分发网络(CDN)来提高视频点播的体验？越来越多的视频节目开始趋向于在短期内吸引大量的点播量，并快速步入衰退期，如图1所示。所以，要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预测算法。传统的时间序列预测算法，如ARMA，需要收集待预测序列中大量的历史数据来学习参数，并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播量序列都难以满足。大量的点播量都集中在节目上线的早期，累积大量历史数据后再进行预测会使预测的价值降低，并且波动剧烈的序列早期阶段不满足平稳序列的要求。基于K最近邻回归(KNN)的学习方法，虽然可以通过学习其他类似样本，实现早期预测的目标，但是普通的欧氏距离难以为新节目找到合适的邻居，故预测效果较差。
技术实现思路
本专利技术的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点播量预测系统，该系统对新上映的视频点播量进行远超已有数据长度的预测，实现远优于KNN的预测效果。实现本专利技术目的的具体技术方案是：一种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及...

【技术保护点】
一种基于少量数据的短期视频点播量预测系统，其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：所述系统配置模块：根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred；所述数据预处理模块：将根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；所述样本选择模块：从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集；所述匹配预测模块：使用样本选择模块存储的样本集合，根据待预测序列的前Ttrain个数据节点，在平滑样本集中寻找最为相似的K个...

【技术特征摘要】
1.一种基于少量数据的短期视频点播量预测系统，其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：所述系统配置模块：根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred；所述数据预处理模块：将根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；所述样本选择模块：从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集；从样本序列数据库中选择符合限制条件的样本序列，具体包括：a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位，在数据库中筛选出长度满足2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集；b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理，并将经过平滑处理的部分存入平滑样本集；所述匹配预测模块：使用样本选择模块存储的样本集合，根据待预测序列的前Ttrain个数据节点，在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果；具体包括：a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理，得到序列SSnew；b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列，相似度计算公式如下：其中SSi表示平滑序列集中的第i个序列，shift(SSi，β)表示对SSi实施参数为β的平...

【专利技术属性】
技术研发人员：贺樑，陈昊，向平，李明耀，杨辰翌，陈琴，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人