一种多维高速公路收费数据的异常检测与修复方法技术

技术编号：27200252 阅读：54 留言：0更新日期：2021-01-31 12:07

本发明专利技术公开了一种多维高速公路收费数据的异常检测与修复方法，包括步骤1：采集高速公路原始多维收费数据，并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据；步骤2：构建基于相似系数和的异常数据检测模型；步骤3：将步骤1中得到的多维规范之后的原始数据输入基于相似系数和的异常数据检测模型，通过检测得到含有异常值的多维数据；步骤4：构建基于极端梯度提升的异常数据修复模型；步骤5：将步骤3中得到的含有异常值的多维数据输入基于极端梯度提升的异常数据修复模型，实现多维数据异常修复及效果评估。本发明专利技术能够明显提升高速公路收费数据的质量与可用性，为后续的高速公路异常事件检测以及大数据统计分析工作提供良好的数据基础。据统计分析工作提供良好的数据基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种多维高速公路收费数据的异常检测与修复方法

[0001]本专利技术属于数据挖掘领域，公开了一种多维高速公路收费数据的异常检测与修复方法。

技术介绍

[0002]随着高速路网的建设和信息时代的到来，智能收费系统日渐完善，收集的数据也达到了相当可观的量级。其中，占有重要地位的高速公路收费数据具有详尽的车辆通行信息，通过数据挖掘技术可以解决高速公路的运营和决策问题，但是这都需要建立在高质量数据的基础之上。收费数据中往往存在以异常值和缺失值为代表的“脏数据”，极大地影响数据挖掘的效果。如果直接使用单维度异常数据清洗方法并将“脏数据”简单滤除，将会失去大量属性和信息，致使后续对如异常数据形成原因和高速异常事件进行分析可依赖的数据特征和数量减少，因此亟需对多维数据异常处理算法展开研究。

技术实现思路

[0003]本专利技术的目的在于提供一种多维高速公路收费数据的异常检测与修复方法，用以提升高速公路收费数据的质量与可用性，为后续的高速公路异常事件检测以及大数据统计分析工作提供良好的数据基础。
[0004]为了实现上述任务，本专利技术采用以下技术方案：
[0005]一种针对多维高速公路收费数据的异常检测与修复方法，包括如下步骤：
[0006]步骤1：采集高速公路原始多维收费数据，并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据；
[0007]步骤2：构建基于相似系数和的异常数据检测模型；
[0008]步骤3：将步骤1中得到的多维规范之后的原始数据输入基于相似...

【技术保护点】

【技术特征摘要】
1.一种针对多维高速公路收费数据的异常检测与修复方法，其特征在于，包括如下步骤：步骤1：采集高速公路原始多维收费数据，并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据；步骤2：构建基于相似系数和的异常数据检测模型；步骤3：将步骤1中得到的多维规范之后的原始数据输入基于相似系数和的异常数据检测模型，通过检测得到含有异常值的多维数据；步骤4：构建基于极端梯度提升的异常数据修复模型；步骤5：将步骤3中得到的含有异常值的多维数据输入基于极端梯度提升的异常数据修复模型，实现多维数据异常修复及效果评估。2.如权利要求1所述的多维高速公路收费数据的异常检测与修复方法，其特征在于，对高速公路原始多维收费数据进行预处理，所述的预处理包括从高速公路原始多维收费数据中选取合适的特征因子并按照第一关系模型对其进行规范化，得到多维规范之后的原始数据；其中，第一关系模型包括：其中，x
*
表示已处理值，x表示待处理值，μ为待处理值的均值，σ为待处理值的标准差。3.如权利要求1所述的多维高速公路收费数据的异常检测与修复方法，其特征在于，所述基于相似系数和的异常数据检测模型以多维规范之后的原始数据作为样本输入数据，按照第二关系模型计算数据间的相似程度，得到相似系数矩阵并据此计算出每条数据的相似系数和，通过与给定的阈值的比较结果来判别数据是否为异常数据；其中，第二关系模型包括：括：其中，r
ij
表示数据x
i
与x
j
间的相似程度，P
i
表示数据x
...

【专利技术属性】
技术研发人员：孙朝云，裴莉莉，沙爱民，韩雨希，李伟，郝雪丽，户媛姣，袁博，
申请(专利权)人：长安大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人