一种交通数据质量提升的方法及装置制造方法及图纸

技术编号:17598901 阅读:47 留言:0更新日期:2018-03-31 11:33
本发明专利技术公开了一种交通数据质量提升的方法及装置,该方法包括通过获取待处理的交通数据,对所述待处理的交通数据进行识别,得到异常数据,该异常数据包括缺失数据、错误数据和冗余数据,采用K折交叉验证法对缺失数据进行补偿以及对错误数据进行修正。根据数据的相似性,去除冗余数据。可以实现数据准确性的提升,提供数据同化的效率,从而提高智能交通决策方案预测的准确性。

A method and device for improving the quality of traffic data

The invention discloses a method and a device for improving the quality of traffic data, the method includes data acquisition through the traffic to be processed, the traffic data to be processed on the identification, get the abnormal data, the abnormal data including missing data, error data and redundant data, using the K fold cross validation method for the compensation and the error data correction for missing data. Redundant data are removed according to the similarity of the data. It can improve the accuracy of data, provide the efficiency of data assimilation, and improve the accuracy of the prediction of intelligent traffic decision.

【技术实现步骤摘要】
一种交通数据质量提升的方法及装置
本专利技术实施例涉及大数据
,尤其涉及一种交通数据质量提升的方法及装置。
技术介绍
随着智能交通系统的发展,受限于天气、环境、设备能力等因素,智能交通系统采集到的数据会存在很多问题。例如数据缺失,错误数据冗余数据等问题。对于这些问题数据,需要将先设计、完成数据的同化工具,这些问题数据在未经过识别清洗的情况下利用率不高,对智能交通决策方案的预测准确率也有不良影响,因此为了更为高效的利用这些数据,需要将数据进行识别清洗,以得到质量比较高的数据。因此,亟需一种可以提升交通数据质量的方法。
技术实现思路
本专利技术实施例提供一种交通数据质量提升的方法及装置,用以实现交通数据质量的提升,提升数据的真实可靠性。本专利技术实施例提供的一种交通数据质量提升的方法,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。可选的,所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正,包括:将所述缺失数据或错误数据分割成K个子样本集,其中一个子样本集为验证数据集,其它K-1个子样本集为训练数据集;采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证K次,将K次的验证结果进行平均得到补偿数据或修正数据。可选的,所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。可选的,所述采用邻近特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。可选的,所述根据数据的相似性,去除冗余数据,包括:确定所述冗余数据的键以及与所述键对应的键值;对于所述冗余数据中重复的键或键值,采用均值特征归纳,删除多余的键或键值。相应地,本专利技术实施例还提供了一种交通数据质量提升的装置,包括:获取单元,用于获取待处理的交通数据;处理单元,用于对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;以及根据数据的相似性,去除冗余数据。可选的,所述处理单元具体用于:将所述缺失数据或错误数据分割成K个子样本集,其中一个子样本集为验证数据集,其它K-1个子样本集为训练数据集;采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证K次,将K次的验证结果进行平均得到补偿数据或修正数据。可选的,所述处理单元具体用于:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。可选的,所述处理单元具体用于:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。可选的,所述处理单元具体用于:确定所述冗余数据的键以及与所述键对应的键值;对于所述冗余数据中重复的键或键值,采用均值特征归纳,删除多余的键或键值。本专利技术实施例表明,获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据,采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正,根据数据的相似性,去除冗余数据。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种检测器的结构示意图;图2为本专利技术实施例提供的一种检测器的结构示意图;图3为本专利技术实施例提供的一种交通数据质量提升的方法的流程示意图;图4为本专利技术实施例提供的一种交通数据质量提升的装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例是利用数据的周期性、临时性等特性来获取同化模型建模对象的均值、差值、中位数以及拓扑或邻近值特征。对于均值特征值,可以根据数据的周期性,临时性以及拓扑结构得到相应数据的均值,均值通常用于对数据的修正或补偿、冗余数据的删除等。计算均值的方法如下:记监测器i在t时刻(或时段)采集到的关注变量为F(i,t),该关注变量为需要提升的一种交通数据,比如,需要对交通流量数据进行质量提升时,该关注变量为交通流量,可以为监测器记录的过车数据。监测器i在前k(k=1,2,…,n)时间内t时刻(或时段)采集到的关注变量的均值mean:该类特征包括n个。上述监测器可以为地磁感应检测器和电警检测器,其中地磁感应检测器一般布设于距离停止线30m的位置,该地磁感应检测器的检测数据一般包括入口道的车流量(过车数据)、占有率,数据输出间隔为一个信号周期,具体的布设方式可以如图1所示。电警检测器一般布设在每个交叉口各方向的入口道,电警应为集成了卡口功能的多功能电警,可以实现逢车必拍功能。多功能电警一般布设于距离停车线18-23m的位置,其输出数据为通过停车线的各车辆的车牌号与通过时间,数据输出间隔为一个信号周期,具体布设方式可以如图2所示。对于差值特征值,可以通过监测器在某一个时刻或者特定的周期内采集到的关注变量得到差值,差值通常结合拓扑或邻近值特征对缺失数据进行填补。计算差值的方法如下:监测器i在t1,t2时间里采集到的关注变量的差值difference:difference=|F(i,t1)-F(i,t2)|(t1,t2=1,2…m),该类特征包括m个。对于中位数特征值,将采集的数据,根据不同的特性依据得到这些数据的中位数特征,中位数可以帮助修正数据中的错误数据。计算中位数的方法如下:监测器i在前k(k=1,2,…,n)时间内t时刻或者时段采集到的关注变量的中位数median1:median1=median(F1(i,t-24*a),a=1,2,…,k),k=1,2,…,n,该类特征包含n个。基于上述描述,图3示例性的示出了本专利技术实施例提供的一种交通数据质量提升的方法的流程,该流程可以由交通数据质量提升的装置执行。如图3所示,该流程具体包括:步骤S301,获取待处理的交通数据。步骤S302,对所述待处理的交通数据进行识别,得到异常数据。步骤S303,采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正。步骤S本文档来自技高网...
一种交通数据质量提升的方法及装置

【技术保护点】
一种交通数据质量提升的方法,其特征在于,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。

【技术特征摘要】
1.一种交通数据质量提升的方法,其特征在于,包括:获取待处理的交通数据;对所述待处理的交通数据进行识别,得到异常数据,所述异常数据包括缺失数据、错误数据和冗余数据;采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。2.如权利要求1所述的方法,其特征在于,所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正,包括:将所述缺失数据或错误数据分割成K个子样本集,其中一个子样本集为验证数据集,其它K-1个子样本集为训练数据集;采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证K次,将K次的验证结果进行平均得到补偿数据或修正数据。3.如权利要求2所述的方法,其特征在于,所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。4.如权利要求2所述的方法,其特征在于,所述采用邻近特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。5.如权利要求1所述的方法,其特征在于,所述根据数据的相似性,去除冗余数据,包括:确定所述冗余数据的键以及与所述键对应的键值;对于...

【专利技术属性】
技术研发人员:闾凡兵王栋梁尹纪军钮玉晓丁继强
申请(专利权)人:贵阳海信网络科技有限公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1