本发明专利技术公开了一种快速精准的交通大数据清洗方法,涉及交通数据处理技术领域。对于实时的RFID和抓拍数据,采用Spark Streaming流处理技术,利用Kafka提供数据缓存,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理;对于离线的批量累积数据,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理,通过对比对算法的优化,提高程序的性能和数据清洗结果的准确性。实现了对城市交通监控管理过程中产生的RFID和抓拍等数据快速精准地处理,进而实现了对交通数据资源的加工处理,保障交通大数据资源的存储和利用。
【技术实现步骤摘要】
本专利技术涉及交通数据处理
,尤其涉及一种快速精准的交通大数据清洗方法。
技术介绍
随着城市建设的发展和人们消费水平的提高,汽车已经成为人们生活中不可或缺的工具,而随之产生的海量交通数据的处理也成为一个亟待解决的问题。为了实现快速实时的交通监管和预测分析,实现交通历史数据的分析和查询,需要对不同来源的交通数据进行清洗过滤,并提取异常数据以供人工处理,对处理的结果采用适当的存储方式分别存储,并提供数据访问接口,以实现交通数据的实时分析和查询功能。目前,交通大数据清洗方法在对实时数据进行清洗,采用的方法是:直接将接收到的RFID过车数据和抓拍数据流交给sparkstreaming进行处理,sparkstreaming按照清洗规则要求进行车辆轨迹清洗、过车流量统计和异常提取。对于离线数据清洗,采用spark编程模型,按照清洗规则要求将RFID过车数据和抓拍数据进行连接,提取有效字段,从而提取出车辆轨迹,统计出各采集点的过车流量,并分离出异常数据供人工处理。该方法存在以下问题:对于实时数据清洗,由于RFID设备和抓拍设备采集到的数据是实时传送给sparkstreaming进行处理的,sparkstreaming任务在提交以后必须持续等待,直到接收到该时间段采集到的所有数据才会进行下一步的处理,这样就导致大数据平台运行效率严重降低。对于离线数据处理,由于数据量巨大,在根据键值做匹配连接的时候往往会导致内存压力大,处理速度慢的后果,从而影响程序的性能。
技术实现思路
本专利技术的目的在于提供一种快速精准的交通大数据清洗方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种快速精准的交通大数据清洗方法,包括实时数据的处理方法和历史数据的处理方法;所述实时数据的处理方法是针对实时的RFID和抓拍数据,采取SparkStreaming流处理技术,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理;所述历史数据的处理方法,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理。优选地,所述从Kafka中按照时间窗口不断提取数据,具体为,按照设定的时间间隔从持续的Kafka分布式消息队列中获取RFID过车数据和抓拍数据,每次累计获取设定时间段以内的数据。优选地,所述实时数据的处理方法中,所述按照数据清洗规则,完成数据的比对、统计和异常处理,具体包括车辆轨迹的清洗、过车流量的统计和异常数据的提取;所述车辆轨迹的清洗,按照如下步骤进行实施:A1,根据RFID过车数据和抓拍数据的公共字段,包括车牌号、时间、采集点名称和采集方向四个字段,将两种数据记录进行连接;A2,根据SparkStreaming提供的比对函数,对车牌号和时间字符串进行逆序处理,并根据比对规则对连接的RFID过车数据和抓拍数据进行过滤,得到车辆经过采集点时的轨迹记录,即车辆轨迹清洗结果;A3,将所述车辆轨迹清洗结果存储在HBase中,将HBase划分为多个不同的域,以车牌号和时间字符串的逆序字符串为键进行存储。优选地,所述过车流量的统计,按照如下步骤进行实施:B1,将每个时间段内接收到的RFID过车数据转换为以采集点字段为键的键值对形式;B2,根据SparkStreaming分布式大数据处理的原理,对具有相同键的数据记录进行计数,然后对每个采集点的统计结果以设定的时间间隔进行求和,得到各个采集点在相应时间段内的过车流量记录;B3,使用内存数据库对各个采集点的过车流量进行存储。优选地,所述异常数据的提取,按照如下步骤进行实施:C1,根据RFID过车数据和抓拍数据的公共字段,包括车牌号、时间、采集点名称和采集方向四个字段,将两种数据记录进行连接;C2,根据异常数据的判定规则分别对RFID过车数据和抓拍数据进行过滤,提取出异常数据;C3,采用关系型数据库进行存储。优选地,所述历史数据的处理方法中,所述按照数据清洗规则,对数据进行比对、统计和异常处理,具体为车辆轨迹的清洗、过车流量的统计和异常数据的提取;所述车辆轨迹的清洗,按照如下步骤进行实施:D1,通过车牌号、时间、采集点名称、方向四个字段的信息将RFID过车数据和视频抓拍数据进行连接;D2,对车牌号和时间字符串进行逆序处理,使用车牌颜色和通行时间字段对数据进行过滤,得到车辆轨迹数据;D3,以车牌号和时间字符串的逆序字符串为键,将所述车辆轨迹数据存储在HBase中。优选地,所述车辆轨迹的清洗过程中,首先将RFID数据、抓拍数据和设备信息表分别封装为相应的RDD,根据设备的IP地址,进行数据连接,得到带有方向字段的RFID数据RDD和带有方向的抓拍数据RDD;然后对两类数据RDD分别进行转换,得到键值对形式的RDD,以方便比对连接操作的进行,其中键为需要进行比对的字段组成的字符串;最后,将两种数据的RDD根据键值进行比对并连接,采用时间完整性、号牌颜色一致性、字段的完整性等规则要求对数据进行过滤,得到正确的数据轨迹。优选地,所述过车流量的统计,按照如下步骤进行实施:E1,将RFID过车数据转换为以采集点字段和精确至小时的时间字符串为键的键值对形式;E2,根据Spark分布式大数据处理的原理,对具有相同键的数据记录进行计数,得到各个采集点在相应时间段的过车流量记录;E3,使用关系型数据库对各个采集点的过车流量统计结果进行存储。优选地,所述异常数据的类型包括:数据字段不完整、数据缺失和数据信息不一致。优选地,所述异常数据的提取,按照如下步骤进行实施:F1,通过车牌号码、采集点名称、采集方向和通过时间四个字段的信息将RFID过车数据和抓拍数据进行连接;F2,根据数据异常类型,首先判断RFID数据是否缺失,如果存在RFID数据,则判断RFID数据中颜色字段是否存在、抓拍数据中抓拍图片链接是否存在,如果字段完整,则判断RFID数据和抓拍数据中号牌颜色是否一致,最后,将提取出的异常数据存储到MySQL数据库中,并标识异常类型。本专利技术的有益效果是:本专利技术实施例提供的一种快速精准的交通大数据清洗方法,对于实时的RFID和抓拍数据,采用SparkStreaming流处理技术,利用Kafka提供数据缓存,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理;对于离线的批量累积数据,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理,通过对比对算法的优化,提高程序的性能和数据清洗结果的准确性。实现了对城市交通监控管理过程中产生的RFID和抓拍等数据快速精准地进行车辆轨迹清洗、异常数据处理、车流量统计,进而实现了对交通数据资源的加工处理,保障交通大数据资源的存储和利用。附图说明图1是实时数据清洗流程示意图;图2是离线历史数据清洗流程示意图;图3是车辆轨迹清洗模块RDD依赖关系示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种快速精准的交通大数据清洗方法,包括实时数据的处理方法和历史数本文档来自技高网...
【技术保护点】
一种快速精准的交通大数据清洗方法,其特征在于,包括实时数据的处理方法和历史数据的处理方法;所述实时数据的处理方法是针对实时的RFID和抓拍数据,采取Spark Streaming流处理技术,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理;所述历史数据的处理方法,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理。
【技术特征摘要】
1.一种快速精准的交通大数据清洗方法,其特征在于,包括实时数据的处理方法和历史数据的处理方法;所述实时数据的处理方法是针对实时的RFID和抓拍数据,采取SparkStreaming流处理技术,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理;所述历史数据的处理方法,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理。2.根据权利要求1所述的快速精准的交通大数据清洗方法,其特征在于,所述从Kafka中按照时间窗口不断提取数据,具体为,按照设定的时间间隔从持续的Kafka分布式消息队列中获取RFID过车数据和抓拍数据,每次累计获取设定时间段以内的数据。3.根据权利要求2所述的快速精准的交通大数据清洗方法,其特征在于,所述实时数据的处理方法中,所述按照数据清洗规则,完成数据的比对、统计和异常处理,具体包括车辆轨迹的清洗、过车流量的统计和异常数据的提取;所述车辆轨迹的清洗,按照如下步骤进行实施:A1,根据RFID过车数据和抓拍数据的公共字段,包括车牌号、时间、采集点名称和采集方向四个字段,将两种数据记录进行连接;A2,根据SparkStreaming提供的比对函数,对车牌号和时间字符串进行逆序处理,并根据比对规则对连接的RFID过车数据和抓拍数据进行过滤,得到车辆经过采集点时的轨迹记录,即车辆轨迹清洗结果;A3,将所述车辆轨迹清洗结果存储在HBase中,将HBase划分为多个不同的域,以车牌号和时间字符串的逆序字符串为键进行存储。4.根据权利要求3所述的快速精准的交通大数据清洗方法,其特征在于,所述过车流量的统计,按照如下步骤进行实施:B1,将每个时间段内接收到的RFID过车数据转换为以采集点字段为键的键值对形式;B2,根据SparkStreaming分布式大数据处理的原理,对具有相同键的数据记录进行计数,然后对每个采集点的统计结果以设定的时间间隔进行求和,得到各个采集点在相应时间段内的过车流量记录;B3,使用内存数据库对各个采集点的过车流量进行存储。5.根据权利要求3所述的快速精准的交通大数据清洗方法,其特征在于,所述异常数据的提取,按照如下步骤进行实施:C1,根据RFID过车数据和抓拍数据的公共字段,包括车牌号、时间、采集点名称和采集方向四个字段,将两种数据记录进行连接;C2,根据异常数据的判定规则分别对RFID过车数据和抓拍数据进行过滤,提取出异...
【专利技术属性】
技术研发人员:张鹏飞,赵凯,梁婷婷,陶斯琴,侯俊巍,
申请(专利权)人:航天科工智慧产业发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。