The invention discloses a method and a device for improving the quality of traffic data, the method includes data acquisition through the traffic to be processed, the traffic data to be processed on the identification, get the abnormal data, the abnormal data including missing data, error data and redundant data, using the K fold cross validation method for the compensation and the error data correction for missing data. Redundant data are removed according to the similarity of the data. It can improve the accuracy of data, provide the efficiency of data assimilation, and improve the accuracy of the prediction of intelligent traffic decision.
【技术实现步骤摘要】
一种交通数据质量提升的方法及装置
本专利技术实施例涉及大数据
,尤其涉及一种交通数据质量提升的方法及装置。
技术介绍
随着智能交通系统的发展,受限于天气、环境、设备能力等因素,智能交通系统采集到的数据会存在很多问题。例如数据缺失,错误数据冗余数据等问题。对于这些问题数据,需要将先设计、完成数据的同化工具,这些问题数据在未经过识别清洗的情况下利用率不高,对智能交通决策方案的预测准确率也有不良影响,因此为了更为高效的利用这些数据,需要将数据进行识别清洗,以得到质量比较高的数据。因此,亟需一种可以提升交通数据质量的方法。
技术实现思路
本专利技术实施例提供一种交通数据质量提升的方法及装置,用以实现交通数据质量的提升,提升数据的真实可靠性。本专利技术实施例提供的一种交通数据质量提升的方法,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。可选的,所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正,包括:将所述缺失数据或错误数据分割成K个子样本集,其中一个子样本集为验证数据集,其它K-1个子样本集为训练数据集;采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证K次,将K次的验证结果进行平均得到补偿数据或修正数据。可选的,所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述 ...
【技术保护点】
一种交通数据质量提升的方法,其特征在于,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。
【技术特征摘要】
1.一种交通数据质量提升的方法,其特征在于,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。2.如权利要求1所述的方法,其特征在于,所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正,包括:将所述缺失数据或错误数据分割成K个子样本集,其中一个子样本集为验证数据集,其它K-1个子样本集为训练数据集;采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证K次,将K次的验证结果进行平均得到补偿数据或修正数据。3.如权利要求2所述的方法,其特征在于,所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。4.如权利要求2所述的方法,其特征在于,所述采用邻近特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。5.如权利要求1所述的方法,其特征在于,所述根据数据的相似性,去除冗余数据,包括:确定所述冗余数据的键以及与所述键对应的键值;对于...
【专利技术属性】
技术研发人员:闾凡兵,王栋梁,尹纪军,钮玉晓,丁继强,
申请(专利权)人:贵阳海信网络科技有限公司,
类型:发明
国别省市:贵州,52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。