一种基于梯度提升决策树的短时交通流量预测方法技术

技术编号:29211376 阅读:14 留言:0更新日期:2021-07-10 00:48
本发明专利技术公开了一种基于梯度提升决策树的短时交通流量预测方法,所述建立模型的方法,包括:1)对原始高速公路收费站交通流量数据进行预处理;2)对数据进行数据分析和数据聚集(数据切片)、数据特征提取操作;3)构建梯度决策树模型,将数据输入模型并开展训练工作;4)将模型移植至分布式平台上,进行切分点抽样统计优化及逐层训练优化调整;5)构建三层Stacking模型进行多模型融合后对数据进行进一步训练。本发明专利技术设计的相关方法具有快速提取车辆流量特征的功能,能够在短时间内对车辆流量进行预测。量进行预测。量进行预测。

【技术实现步骤摘要】
一种基于梯度提升决策树的短时交通流量预测方法


[0001]本专利技术是一种基于梯度提升决策树的短时交通流量预测方法,主要用于短时交通流量的预测等,属于道路交通预测


技术介绍

[0002]短时交通流预测间隔较小,通常为5~15分钟,主要用于交通流量、交通流速度和交通流密度这三个物理量进行总结分析。短时交通流预测在智能交通信息系统中扮演者一个不可缺少的角色,具有很大的研究价值,逐渐发展成为当今交通领域内探究的一个热点。道路交通内在的时变性、非线性和高度不确定性等复杂的特性,为准时、实时交通流预测带来了很大的困难。近年来,国内外研究学者对城市道路交通展开了深入的研究,并结合统计学理论,数学公式及人工智能技术等制定出了相关的短时交通流预测方法,根据所运用的不同原理方法,主要有以下几类:线性理论方法的预测、非线性理论方法的预测、组合原理方法的预测,及其它方法的预测等。
[0003](1)基于线性理论方法的交通流短时预测,此类方法主要按道路交通流量周期变化,通过对交通流历史数据的总结、分析及推断,考虑因素较为单一、计算简单。其典型的方法有:历史平均模型,其用来进行交通流短时预测时,实验过程简单且速率快,但预测准确度低,不能有效克服出现的随机干扰因素,如异常天气及交通事故等;时间序列模型,其建模简单,但要获得理想的预测精度,需要保证交通流数据充足和交通量的周期性需平稳波动;自回归滑动平均模型,自回归滑动平均模型是将自回归模型与滑动平均模型进行相结合而成的,其计算简单、适用于平稳序列,易于实现的特点使得在一段时间内得到了大量的运用,但也存在样本数据需求多、预测模型局限性强,鲁棒性较差的缺点。
[0004](2)基于非线性理论方法针对交通流高度非线性与变化波动性强的特性显现出了较好的预测能力。非线性理论预测方法主要是根据现有的历史交通流数据集进行不断学习,并进行归纳总结,不需要明确的数学公式,通过自身总结的规律来实现交通流预测。其典型的方法有:非参数回归预测方法、支持向量回归预测方法、神经网络预测方法等,这些经典的方法更好的诠释了对非线性问题处理的优势所在。但是,该类预测方法通常会假定交通流中的相关的影响因素及其关系都隐藏于历史数据中,需要大量的样本数据集进行处理分析。支持向量机(Support Vector Machine SVM)是一类基于结构风险最小化的统计学习方法,对模式识别中的数据分类有着良好的处理效果,解决解决样本数据小的问题时有着良好的适应性。在处理交通流预测中,在某种程度上预测精度能与某些神经网络进行媲美,因此近年来被得到了广泛的运用。但是,选用基于SVM的预测方法做预测时,其计算复杂度高、存储大,最主要原因在于二次规划的求解问题;同时,核函数与他相关参数的选取也会对最终的预测结果容易产生很大影响。神经网络是通过各个神经元之间的相互作用将大量信息处理单元按一定的规则相互连接而形成的信息网络,从而实现网络信息处理能力的快速处理,其不足主要体现在网络易产生局部极小值、初始值敏感、算法收敛速度慢、泛化能力弱等。
[0005](3)基于组合原理的短时交通流预测是指根据不同的运用场景建立不同的数学统计预测模型,并运用不同的样本数据集来获取交通流的波动变化信息,进而实现更高的预测准确度。常见的预测方法结合方式有两类:第一类使用非线性方法对交通流样本数据进行聚类,然后再选用线性方法或非线性方法进行预测每一类数据,其常用方法有模糊神经网络方法;第二类则是使用非线性方法分解交通流样本数据,然后选用线性或非线性方法对分解后的数据进行预测,其常用有小波分析法及谱分析法等。最终的获取的预测结果则是根据不同预测方法的准确度,使用条件及使用度等分别进行赋予不同权值的来确定的。
[0006](4)其它短时交通流预测方法。除了以上基于三种不同理论的交通流短时预测方法之外,研究者们还运用一些其他领域中运用较好的方法来对短时交通流进行预测。

技术实现思路

[0007]本专利技术的目的是针对高速公路收费口处真实车流数据,克服现阶段交通流量预测中存在的技术缺陷,提供一种基于梯度提升决策树的短时交通流量预测方法,包括:
[0008]1)对原始高速公路收费站交通流量数据进行预处理,直至达到能够对神经网络进行训练和测试的目的。
[0009]根据所述方法,其中步骤1)包括:
[0010]数据清理:伴随着数据采集方式的不断丰富,在数据采集过程中由于各种各样的原因会给原始数据带来多种脏数据,比如大量原始数据的丢失、数据处理错误、数据的格式不统一和系统记录错误等。本专利技术采用是的高速收费站车辆通过的原始数据,所以也需要对原始数据进行分析,进行数据的清洗,同时也会保证数据对后面算法建模的准确性。
[0011]本专利技术主要的数据清理分为以下两点:首先是数据处理错误,由于高速路收费站分别对应着车辆进入高速公路和离开高速公路,因此在进行交通流量预测时需要明确车辆行驶方向,在进行流量预测时分开进行预测。但在数据中,偶尔有因为系统问题将车辆行进方向标注错误的情况出现,因此需要按照高速收费站ID数据纠正这部分错误数据。其次是系统记录错误,相同的车辆在同时段同高速收费站出现次数理论上应该只有1次,但在实际过程中,高速卡口相机存在着对同一辆通过的车辆多次拍照的情况,因此需要对同一时段超过1次记录的数据进行剔除。具体数据处理错误类型参见附图1。
[0012]2)在对原始高速公路收费站交通流量数据预处理之后,对数据集进行分析,对数据规律有一个大致的了解和认识。
[0013]数据集的分析在车辆短时流量预测中起着举足轻重的作用,通过对汽车流量数据进行分析可以获知汽车流量变化的内在规律,因此在开展神经网络训练和学习之前开展一个正确的数据集分析往往能够起到事半功倍的效果。本专利技术方法所针对的数据是某区域高速收费站车辆历史流量数据,这里面只涉及到时间序列变化,不涉及到空间维度的移动。
[0014]根据所述方法,其中步骤2)包括:
[0015]本专利技术针高速收费站车辆流量数据,结合实际问题从时间属性和外部特征两方面进行分析与讨论。
[0016]本专利技术针对高速收费站车流数据首先在时间维度层面开展分析工作,本专利技术方法的目的是对高速收费口实现短期流量预测,其本质上是在时间维度上开展的预测工作,因此时间序列数据对预测结果往往能够起到决定性作用。因此本专利技术先对历史数据进行统计
分析,从邻近性、周期性和趋势性三个属性入手考察车流量数据在时间维度上的依赖程度。
[0017]A.邻近性:对高速公路收费口一天的流量数据进行分析,考察在连续的时间区间范围内,车辆流量数据的变化。如果是循序渐进、不存在突变的情况,则说明车流数据较为正常;如果数据突变较多、存在断层现象,则在很大程度上说明高速车流存在异常情况。
[0018]B.周期性:对某一收费口连续一周的车辆流量数据进行分析,考察在连续的时间段内,车辆数据是否有较强的周期性,如果每天的车辆流量变化趋势都很相似,则说明流量数据较为正常。
[0019]C.趋势性:对某一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于梯度提升决策树的短时交通流量预测方法,其特征在于:包括:1)对原始高速公路收费站交通流量数据进行预处理,直至达到能够对神经网络进行训练和测试;根据所述方法,其中步骤1)包括:采用的原始数据是高速收费站车辆,对原始数据进行分析,进行数据的清洗;需要对同一时段超过1次记录的数据进行剔除;2)在对原始高速公路收费站交通流量数据预处理之后,对数据集进行分析;所针对的数据是某区域高速收费站车辆历史流量数据;针高速收费站车辆流量数据,结合实际问题从时间属性和外部特征两方面进行分析与讨论;对历史数据进行统计分析,从邻近性、周期性和趋势性三个属性考察车流量数据在时间维度上的依赖程度;3)在对数据规律了解和认识后,对数据进行数据聚集操作;由于车辆流量数据属于时序数据,往往不同时间段有着不同的数据特征,因此对车辆流量数据按照时间段进行划分,分别按照30分钟、20分钟和10分钟三个尺度对车辆流量数据进行切片划分;4)在完成数据聚集操作后,对数据进行特征提取操作;使用的数据集包含了高速路口全部收费窗口的流量数据;影响流量情况的因素有时间依赖性和外部事件两类;在对切片数据进行构造的过程中,从这两方面对数据开展特征抽取的工作,从而拼接特征,构造训练样本;5)在完成数据特征提取操作后,对数据利用梯度决策树进行训练;将决策树模型和集成学习进行融合,从而获得梯度优化决策树与随机森林两类算法;因为前者预测准确率更高,因此本发明主要使用梯度优化决策树模型来开展预测工作;6)在对模型进行训练的过程中,将模型移植至分布式平台上,进行切分点抽样统计优化调整;通过切分点抽样统计的方式,有效减少网络I/O的开销,提高了分布式梯度优化决策树的运行效率;7)在分布式平台上对模型进行训练的过程中,对模型进行逐层训练优化调整;当一层节点全部分裂完成后再分裂下一层节点;遍历所有车辆流量数据的次数等于所有树中的最大层数,每次遍历时,需要计算同层每个节点所有切分点统计参数,遍历完成后再根据节点的特征进行划分,决定是否切分,以及如何切分;8)在进行上述优化后,采用三层Stacking模型进行多模型融合,提升训练效果;三层Stacking模型的第一层用了9个模型(LASSO,Ridge,GBDT,ADABoost,XgBoost,XgBoost2,ExtraTrees,Liner,RandomForest),第二层用了3个模型(GBDT,XgBoost,XgBoost2),第三层是将第二层取平均;与此同时,为了增加第二层模型之间的不相关程度,第二层的输入不是第一层所有模型的输出,其中(LASSO,Ridge,GBDT,ADABoost,XgBoost,XgBoost2,ExtraTrees,Liner)的输出为第二层GBDT的输入,(LASSO,Ridge,GBDT,ADABoost,XgBoost,XgBoost2,ExtraTrees,Liner,RandomForest)的输出为第二层XgBoost的输入,(Ridge,GBDT,ADABoost,XgBoost,XgBoost2,ExtraTrees,Liner,RandomForest)输
出是第二层XgBoost2的输入;同样的,参数设置是在默认参数的基础上增强了泛化能力;9)模型训练结束,进行训练结果测试,对未来时段内的车辆流量数据进行预测,并输出预测结果;利用测试集数据对网络模...

【专利技术属性】
技术研发人员:高宇健姬庆庆刘子豪张津丽蒋宗礼
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1