一种快速精准的交通大数据清洗方法技术

技术编号：14882530 阅读：144 留言：0更新日期：2017-03-24 04:54

本发明专利技术公开了一种快速精准的交通大数据清洗方法，涉及交通数据处理技术领域。对于实时的RFID和抓拍数据，采用Spark Streaming流处理技术，利用Kafka提供数据缓存，从Kafka中按照时间窗口不断提取数据，按照数据清洗规则，完成数据的比对、统计和异常处理；对于离线的批量累积数据，采用Spark内存处理技术，从HDFS中读取数据，按照数据清洗规则，对数据进行比对、统计和异常处理，通过对比对算法的优化，提高程序的性能和数据清洗结果的准确性。实现了对城市交通监控管理过程中产生的RFID和抓拍等数据快速精准地处理，进而实现了对交通数据资源的加工处理，保障交通大数据资源的存储和利用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通数据处理
，尤其涉及一种快速精准的交通大数据清洗方法。
技术介绍
随着城市建设的发展和人们消费水平的提高，汽车已经成为人们生活中不可或缺的工具，而随之产生的海量交通数据的处理也成为一个亟待解决的问题。为了实现快速实时的交通监管和预测分析，实现交通历史数据的分析和查询，需要对不同来源的交通数据进行清洗过滤，并提取异常数据以供人工处理，对处理的结果采用适当的存储方式分别存储，并提供数据访问接口，以实现交通数据的实时分析和查询功能。目前，交通大数据清洗方法在对实时数据进行清洗，采用的方法是：直接将接收到的RFID过车数据和抓拍数据流交给sparkstreaming进行处理，sparkstreaming按照清洗规则要求进行车辆轨迹清洗、过车流量统计和异常提取。对于离线数据清洗，采用spark编程模型，按照清洗规则要求将RFID过车数据和抓拍数据进行连接，提取有效字段，从而提取出车辆轨迹，统计出各采集点的过车流量，并分离出异常数据供人工处理。该方法存在以下问题：对于实时数据清洗，由于RFID设备和抓拍设备采集到的数据是实时传送给sparkstreaming进行处理的，sparkstreaming任务在提交以后必须持续等待，直到接收到该时间段采集到的所有数据才会进行下一步的处理，这样就导致大数据平台运行效率严重降低。对于离线数据处理，由于数据量巨大，在根据键值做匹配连接的时候往往会导致内存压力大，处理速度慢的后果，从而影响程序的性能。
技术实现思路
本专利技术的目的在于提供一种快速精准的交通大数据清洗方法，从而解决现有技术中存在的前述问题。为了实...

【技术保护点】
一种快速精准的交通大数据清洗方法，其特征在于，包括实时数据的处理方法和历史数据的处理方法；所述实时数据的处理方法是针对实时的RFID和抓拍数据，采取Spark Streaming流处理技术，从Kafka中按照时间窗口不断提取数据，按照数据清洗规则，完成数据的比对、统计和异常处理；所述历史数据的处理方法，采用Spark内存处理技术，从HDFS中读取数据，按照数据清洗规则，对数据进行比对、统计和异常处理。

【技术特征摘要】
1.一种快速精准的交通大数据清洗方法，其特征在于，包括实时数据的处理方法和历史数据的处理方法；所述实时数据的处理方法是针对实时的RFID和抓拍数据，采取SparkStreaming流处理技术，从Kafka中按照时间窗口不断提取数据，按照数据清洗规则，完成数据的比对、统计和异常处理；所述历史数据的处理方法，采用Spark内存处理技术，从HDFS中读取数据，按照数据清洗规则，对数据进行比对、统计和异常处理。2.根据权利要求1所述的快速精准的交通大数据清洗方法，其特征在于，所述从Kafka中按照时间窗口不断提取数据，具体为，按照设定的时间间隔从持续的Kafka分布式消息队列中获取RFID过车数据和抓拍数据，每次累计获取设定时间段以内的数据。3.根据权利要求2所述的快速精准的交通大数据清洗方法，其特征在于，所述实时数据的处理方法中，所述按照数据清洗规则，完成数据的比对、统计和异常处理，具体包括车辆轨迹的清洗、过车流量的统计和异常数据的提取；所述车辆轨迹的清洗，按照如下步骤进行实施：A1，根据RFID过车数据和抓拍数据的公共字段，包括车牌号、时间、采集点名称和采集方向四个字段，将两种数据记录进行连接；A2，根据SparkStreaming提供的比对函数，对车牌号和时间字符串进行逆序处理，并根据比对规则对连接的RFID过车数据和抓拍数据进行过滤，得到车辆经过采集点时的轨迹记录，即车辆轨迹清洗结果；A3，将所述车辆轨迹清洗结果存储在HBase中，将HBase划分为多个不同的域，以车牌号和时间字符串的逆序字符串为键进行存储。4.根据权利要求3所述的快速精准的交通大数据清洗方法，其特征在于，所述过车流量的统计，按照如下步骤进行实施：B1，将每个时间段内接收到的RFID过车数据转换为以采集点字段为键的键值对形式；B2，根据SparkStreaming分布式大数据处理的原理，对具有相同键的数据记录进行计数，然后对每个采集点的统计结果以设定的时间间隔进行求和，得到各个采集点在相应时间段内的过车流量记录；B3，使用内存数据库对各个采集点的过车流量进行存储。5.根据权利要求3所述的快速精准的交通大数据清洗方法，其特征在于，所述异常数据的提取，按照如下步骤进行实施：C1，根据RFID过车数据和抓拍数据的公共字段，包括车牌号、时间、采集点名称和采集方向四个字段，将两种数据记录进行连接；C2，根据异常数据的判定规则分别对RFID过车数据和抓拍数据进行过滤，提取出异...

【专利技术属性】
技术研发人员：张鹏飞，赵凯，梁婷婷，陶斯琴，侯俊巍，
申请(专利权)人：航天科工智慧产业发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人