一种基于拉格朗日插值与时间序列的预测方法技术

技术编号：14485059 阅读：120 留言：0更新日期：2017-01-26 17:42

本发明专利技术属于数据挖掘技术领域，具体涉及一种基于拉格朗日插值与时间序列分析的数据预测方法。该发明专利技术在数据预处理、数据预测和数据挖掘技术基础上，利用拉格朗日插值法对缺失值与异常值进行预处理，将缺失值和异常值填补完整，保留了历史数据，为后续的数据挖掘提供了数据基础。在预处理数据的基础上，应用时间序列分析法预测未来值。本发明专利技术与现有模型相比，解决了因直接将时间序列预测方法应用到不完整的原始数据上而导致预测结果偏离、准确性降低等问题，提高了数据预测准确性，较好地满足了企事业的预测需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘
，具体涉及一种基于拉格朗日插值与时间序列的预测方法。
技术介绍
伴随着计算机科学技术和数据的迅猛发展，大数据时代已然到来。出现信息量爆增的现象，从中找到有用信息的难度也日益加大，导致各行业对数据挖掘技术的意愿越来越强烈。数据预测是数据挖掘领域的一个极其重要的课题，通过对大量数据进行清洗，修复残缺的数据、纠正错误的数据和去除多余的数据，挖掘出之前不知道的关系，并用这些关系预测出未知的结果。在采集数据时，有时会因为仪器的故障或操作的问题等原因，导致观测到的数据没能如实填写下来。当有缺失值时，就破坏了数据的顺序性，破坏了系统的连续性，对结果的分析造成重大影响。处理缺失值的方法可分为三类：删除记录、数据插补和不处理。具体情况还要具体分析，如果通过简单地删除缺失的记录进行分析，并且也能取得预期效果，那么删除含有缺失值的记录这种方法是毫无疑问是最有效的。但是，这种方法在许多情况下有很大的缺点。它是以减少历史数据为代价，导致数据中一些可能的关系未能挖掘出。尤其是在数据集本来就包含很少记录的情况下，删除少量记录可能会严重影响到分析结果的客观性和正确性。样本中的个别值远离序列一般水平的极端大值和极端小值。在数据预处理时，异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。在很多情况下，要先分析异常值出现的可能原因，再判断异常值是否应该舍弃，如果是正确的数据，可以直接在具有异常值的数据集上进行挖掘建模。将含有异常值的记录直接删除这种方法简单易行，但缺点也很明显。在观测值很少的情况下，删除会造成样本量不足，可能会改变变量的原有分...
一种基于拉格朗日插值与时间序列的预测方法

【技术保护点】
一种基于拉格朗日插值与时间序列的预测方法，其特征在于：包括以下步骤：步骤1：对于原始数据进行分析，对于数据缺失值利用逐行扫描方式查看是否有缺失值，而对于异常值检测采取与设定正常取值范围逐一比对，范围之外的值标记为异常值，对于检测出的缺失值与异常值进行标记。步骤2：对步骤1中检测出有问题的数据利用拉格朗日插值法进行预处理，得到清理、整理后的数据。步骤3：对于步骤2中清理后的数据进行纯随机性检验(白噪声检验)，若为纯随机序列则结束，若不为纯随机序列则进入步骤4。步骤4：对于步骤3中清理后的数据进行序列平稳性检验，若不是平稳序列则进入步骤5进行差分直至平稳为止，若是则进入步骤6。步骤5：对于步骤4中序列为非平稳序列，进行非平稳时间序列分析。步骤6：对步骤4中的数据进行平稳时间序列分析。步骤7：对于符合步骤3和步骤4的数据序列进行ARIMA模型的拟合。步骤8：将应用时拉结合法处理后的数据存入数据库中，得出预测值。

【技术特征摘要】
1.一种基于拉格朗日插值与时间序列的预测方法，其特征在于：包括以下步骤：步骤1：对于原始数据进行分析，对于数据缺失值利用逐行扫描方式查看是否有缺失值，而对于异常值检测采取与设定正常取值范围逐一比对，范围之外的值标记为异常值，对于检测出的缺失值与异常值进行标记。步骤2：对步骤1中检测出有问题的数据利用拉格朗日插值法进行预处理，得到清理、整理后的数据。步骤3：对于步骤2中清理后的数据进行纯随机性检验(白噪声检验)，若为纯随机序列则结束，若不为纯随机序列则进入步骤4。步骤4：对于步骤3中清理后的数据进行序列平稳性检验，若不是平稳序列则进入步骤5进行差分直至平稳为止，若是则进入步骤...

【专利技术属性】
技术研发人员：程晓荣，李天琦，张鹏，陆明璇，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人