当前位置: 首页 > 专利查询>长安大学专利>正文

一种多维高速公路收费数据的异常检测与修复方法技术

技术编号:27200252 阅读:43 留言:0更新日期:2021-01-31 12:07
本发明专利技术公开了一种多维高速公路收费数据的异常检测与修复方法,包括步骤1:采集高速公路原始多维收费数据,并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据;步骤2:构建基于相似系数和的异常数据检测模型;步骤3:将步骤1中得到的多维规范之后的原始数据输入基于相似系数和的异常数据检测模型,通过检测得到含有异常值的多维数据;步骤4:构建基于极端梯度提升的异常数据修复模型;步骤5:将步骤3中得到的含有异常值的多维数据输入基于极端梯度提升的异常数据修复模型,实现多维数据异常修复及效果评估。本发明专利技术能够明显提升高速公路收费数据的质量与可用性,为后续的高速公路异常事件检测以及大数据统计分析工作提供良好的数据基础。据统计分析工作提供良好的数据基础。

【技术实现步骤摘要】
一种多维高速公路收费数据的异常检测与修复方法


[0001]本专利技术属于数据挖掘领域,公开了一种多维高速公路收费数据的异常检测与修复方法。

技术介绍

[0002]随着高速路网的建设和信息时代的到来,智能收费系统日渐完善,收集的数据也达到了相当可观的量级。其中,占有重要地位的高速公路收费数据具有详尽的车辆通行信息,通过数据挖掘技术可以解决高速公路的运营和决策问题,但是这都需要建立在高质量数据的基础之上。收费数据中往往存在以异常值和缺失值为代表的“脏数据”,极大地影响数据挖掘的效果。如果直接使用单维度异常数据清洗方法并将“脏数据”简单滤除,将会失去大量属性和信息,致使后续对如异常数据形成原因和高速异常事件进行分析可依赖的数据特征和数量减少,因此亟需对多维数据异常处理算法展开研究。

技术实现思路

[0003]本专利技术的目的在于提供一种多维高速公路收费数据的异常检测与修复方法,用以提升高速公路收费数据的质量与可用性,为后续的高速公路异常事件检测以及大数据统计分析工作提供良好的数据基础。
[0004]为了实现上述任务,本专利技术采用以下技术方案:
[0005]一种针对多维高速公路收费数据的异常检测与修复方法,包括如下步骤:
[0006]步骤1:采集高速公路原始多维收费数据,并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据;
[0007]步骤2:构建基于相似系数和的异常数据检测模型;
[0008]步骤3:将步骤1中得到的多维规范之后的原始数据输入基于相似系数和的异常数据检测模型,通过检测得到含有异常值的多维数据;
[0009]步骤4:构建基于极端梯度提升的异常数据修复模型;
[0010]步骤5:将步骤3中得到的含有异常值的多维数据输入基于极端梯度提升的异常数据修复模型,实现多维数据异常修复及效果评估。
[0011]进一步地,对高速公路原始多维收费数据进行预处理,所述预处理包括从高速公路原始多维收费数据中选取合适的特征因子并按照第一关系模型对其进行规范化,得到多维规范之后的原始数据。其中,第一关系模型包括:
[0012][0013][0014]其中,X为原始数据集,x
i
为第i条数据,分别为第i,数据选取的m,特征因子,其中,x
*
表示已处理值,x表示待处理值,μ为待处理值的均值,σ为待处理值标准差,X

为经过预处理后的数据集。
[0015]进一步地,所述基于相似系数和的异常数据检测模型以多维规范之后的原始数据作为样本输入数据,按照第二关系模型计算数据间的相似程度,得到相似系数矩阵并据此计算出每条数据的相似系数和,进而计算出每条数据的判别系数,通过与给定的阈值的比较结果来判别数据是否为异常数据。其中,第二关系模型包括:
[0016][0017][0018][0019][0020]其中,r
ij
表示数据x
i
与x
j
间的相似程度,R为数据的相似系数矩阵,x

ik
表示经过规范化之后的数据x
i
的第k个属性值,P
i
表示数据x
i
的相似系数和,λ
k
为第k条数据的判别系数,P
max
为所有P
i
中的最大值。
[0021]进一步地,所述基于极端梯度提升的异常数据修复模型通过优化梯度提升决策树的速度和效率以实现具有较高准确度的多维数据异常修复,具体包括:
[0022]根据预设比例,将所述多维规范之后的原始数据按照7比3划分为两个数据子集,其中70%的数据用于模型训练,30%的数据用于模型测试。不断轮换选择两个数据子集,并将其作为样本输入数据,按照第三关系模型进行异常数据修复训练,直至与上述属性值集对应的真实值满足预设训练结束条件,确定异常数据修复模型。
[0023]其中,第三关系模型的详细说明如下:
[0024]所述基于极端梯度提升的异常数据修复模型的构建原理为以回归树模型作为个体学习器,迭代生成回归树(Classification And Regression Tree,下文中简称为CART),新生成的CART在原先的基础上不断地进行特征分解以适应旧一轮次迭代中生成的残差,模型的误差因此不断减小,准确率得以不断优化。具体的,将训练数据集输入初始CART以建立一个弱分类器,将目标函数与目标值的残差输入下一个弱分类器去拟合。目标函数由损失函数和正则项两部分组成,首次迭代的目标函数为:
[0025][0026]其中K代表树的总个数,f
k
代表第k棵树,代表样本x
i
的预测结果。
[0027]之后的每次迭代中,将所有弱分类器的结果相加作为目标值,输入新建立的弱分类器中拟合目标函数与目标值的残差,直至残差小于预先设定的阈值。迭代过程中目标值的计算如下所示:
[0028][0029][0030][0031]…
[0032][0033]其中表示第k次迭代后得到的目标值。第k次迭代的目标函数为:
[0034][0035]其中T代表叶子节点的个数,ω
j
代表j叶子节点的取值,γ控制叶子节点的个数,λ控制叶子节点的分数。为了尽可能减小目标函数的值,需要构造一个CART,记作f
k
。所述异常修复模型通过对损失函数进行泰勒展开来寻找f
k
。此时需要确定分裂准则Gain,所述基于极端梯度提升的异常数据修复模型的增益Gain为:
[0036][0037]其中,代表节点不分裂情况下的分数,与分别表示分裂之
后左右叶子节点的分数。γ可以控制树的复杂度,仅当分数大于γ时才执行分裂。通过遍历特征的所有可能的取值,最后得到左右子节点的样本集合。
[0038]进一步地,对多维数据异常修复效果评估,根据第四关系模型,采用均方根误差、相关系数作为算法准确度评价指标,对异常数据修复模型的修复效果进行评估;
[0039]其中,所述第四关系模型包括:
[0040][0041][0042]其中,R2表示复相关系数,RMSE表示均方根误差,x
i
为第i条数据的初始值,为数据初始值的平均值,x
p
为修复后的值,n为异常值与缺失值的个数。需要说明的是,RMSE误差越小说明算法的准确率越高,R2越接近1,模型的越准确高,通常R2在0.8以上便可认为该数据是合理的。
[0043]本专利技术与现有技术相比具有以下技术特点:
[0044](1)与以基于欧氏距离的异常检测算法为代表的传统单维度异常检测算法相比,本专利技术运用数据维度间的关联性更加有效地检测多维收费数据中的异常数据。
[0045](2)与以拉格朗日插值异常修复算法为代表的传统单维度异常修复算法相比,本专利技术采用异常数据修复模型,数据修复准确度提高39%。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对多维高速公路收费数据的异常检测与修复方法,其特征在于,包括如下步骤:步骤1:采集高速公路原始多维收费数据,并对高速公路原始多维收费数据进行预处理以得到多维规范之后的原始数据;步骤2:构建基于相似系数和的异常数据检测模型;步骤3:将步骤1中得到的多维规范之后的原始数据输入基于相似系数和的异常数据检测模型,通过检测得到含有异常值的多维数据;步骤4:构建基于极端梯度提升的异常数据修复模型;步骤5:将步骤3中得到的含有异常值的多维数据输入基于极端梯度提升的异常数据修复模型,实现多维数据异常修复及效果评估。2.如权利要求1所述的多维高速公路收费数据的异常检测与修复方法,其特征在于,对高速公路原始多维收费数据进行预处理,所述的预处理包括从高速公路原始多维收费数据中选取合适的特征因子并按照第一关系模型对其进行规范化,得到多维规范之后的原始数据;其中,第一关系模型包括:其中,x
*
表示已处理值,x表示待处理值,μ为待处理值的均值,σ为待处理值的标准差。3.如权利要求1所述的多维高速公路收费数据的异常检测与修复方法,其特征在于,所述基于相似系数和的异常数据检测模型以多维规范之后的原始数据作为样本输入数据,按照第二关系模型计算数据间的相似程度,得到相似系数矩阵并据此计算出每条数据的相似系数和,通过与给定的阈值的比较结果来判别数据是否为异常数据;其中,第二关系模型包括:括:其中,r
ij
表示数据x
i
与x
j
间的相似程度,P
i
表示数据x
...

【专利技术属性】
技术研发人员:孙朝云裴莉莉沙爱民韩雨希李伟郝雪丽户媛姣袁博
申请(专利权)人:长安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1