一种基于梯度提升决策树的短时交通流量预测方法技术

技术编号：29211376 阅读：14 留言：0更新日期：2021-07-10 00:48

本发明专利技术公开了一种基于梯度提升决策树的短时交通流量预测方法，所述建立模型的方法，包括：1)对原始高速公路收费站交通流量数据进行预处理；2)对数据进行数据分析和数据聚集(数据切片)、数据特征提取操作；3)构建梯度决策树模型，将数据输入模型并开展训练工作；4)将模型移植至分布式平台上，进行切分点抽样统计优化及逐层训练优化调整；5)构建三层Stacking模型进行多模型融合后对数据进行进一步训练。本发明专利技术设计的相关方法具有快速提取车辆流量特征的功能，能够在短时间内对车辆流量进行预测。量进行预测。量进行预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于梯度提升决策树的短时交通流量预测方法

[0001]本专利技术是一种基于梯度提升决策树的短时交通流量预测方法，主要用于短时交通流量的预测等，属于道路交通预测

技术介绍

[0002]短时交通流预测间隔较小，通常为5～15分钟，主要用于交通流量、交通流速度和交通流密度这三个物理量进行总结分析。短时交通流预测在智能交通信息系统中扮演者一个不可缺少的角色，具有很大的研究价值，逐渐发展成为当今交通领域内探究的一个热点。道路交通内在的时变性、非线性和高度不确定性等复杂的特性，为准时、实时交通流预测带来了很大的困难。近年来，国内外研究学者对城市道路交通展开了深入的研究，并结合统计学理论，数学公式及人工智能技术等制定出了相关的短时交通流预测方法，根据所运用的不同原理方法，主要有以下几类：线性理论方法的预测、非线性理论方法的预测、组合原理方法的预测，及其它方法的预测等。
[0003](1)基于线性理论方法的交通流短时预测，此类方法主要按道路交通流量周期变化，通过对交通流历史数据的总结、分析及推断，考虑因素较为单一、计算简单。其典型的方法有：历史平均模型，其用来进行交通流短时预测时，实验过程简单且速率快，但预测准确度低，不能有效克服出现的随机干扰因素，如异常天气及交通事故等；时间序列模型，其建模简单，但要获得理想的预测精度，需要保证交通流数据充足和交通量的周期性需平稳波动；自回归滑动平均模型，自回归滑动平均模型是将自回归模型与滑动平均模型进行相结合而成的，其计算简单、适用于平稳序列，易于实现的特点使得在一段时间内...

【技术保护点】

【技术特征摘要】
1.一种基于梯度提升决策树的短时交通流量预测方法，其特征在于：包括：1)对原始高速公路收费站交通流量数据进行预处理，直至达到能够对神经网络进行训练和测试；根据所述方法，其中步骤1)包括：采用的原始数据是高速收费站车辆，对原始数据进行分析，进行数据的清洗；需要对同一时段超过1次记录的数据进行剔除；2)在对原始高速公路收费站交通流量数据预处理之后，对数据集进行分析；所针对的数据是某区域高速收费站车辆历史流量数据；针高速收费站车辆流量数据，结合实际问题从时间属性和外部特征两方面进行分析与讨论；对历史数据进行统计分析，从邻近性、周期性和趋势性三个属性考察车流量数据在时间维度上的依赖程度；3)在对数据规律了解和认识后，对数据进行数据聚集操作；由于车辆流量数据属于时序数据，往往不同时间段有着不同的数据特征，因此对车辆流量数据按照时间段进行划分，分别按照30分钟、20分钟和10分钟三个尺度对车辆流量数据进行切片划分；4)在完成数据聚集操作后，对数据进行特征提取操作；使用的数据集包含了高速路口全部收费窗口的流量数据；影响流量情况的因素有时间依赖性和外部事件两类；在对切片数据进行构造的过程中，从这两方面对数据开展特征抽取的工作，从而拼接特征，构造训练样本；5)在完成数据特征提取操作后，对数据利用梯度决策树进行训练；将决策树模型和集成学习进行融合，从而获得梯度优化决策树与随机森林两类算法；因为前者预测准确率更高，因此本发明主要使用梯度优化决策树模型来开展预测工作；6)在对模型进行训练的过程中，将模型移植至分布式平台上，进行切分点抽样统计优化调整；通过切分点抽样统计的方式，有效减少网络I/O的开销，提高了分布式梯度优化决策树的运行效率；7)在分布式平台上对模型进行训练的过程中，对模型进行逐层训练优化调整；当一层节点全部分裂完成后再分裂下一层节点；遍历所有车辆流量数据的次数等于所有树中的最大层数，每次遍历时，需要计算同层每个节点所有切分点统计参数，遍历完成后再根据节点的特征进行划分，决定是否切分，以及如何切分；8)在进行上述优化后，采用三层Stacking模型进行多模型融合，提升训练效果；三层Stacking模型的第一层用了9个模型(LASSO，Ridge，GBDT，ADABoost，XgBoost，XgBoost2，ExtraTrees，Liner，RandomForest)，第二层用了3个模型(GBDT，XgBoost，XgBoost2)，第三层是将第二层取平均；与此同时，为了增加第二层模型之间的不相关程度，第二层的输入不是第一层所有模型的输出，其中(LASSO，Ridge，GBDT，ADABoost，XgBoost，XgBoost2，ExtraTrees，Liner)的输出为第二层GBDT的输入，(LASSO，Ridge，GBDT，ADABoost，XgBoost，XgBoost2，ExtraTrees，Liner，RandomForest)的输出为第二层XgBoost的输入，(Ridge，GBDT，ADABoost，XgBoost，XgBoost2，ExtraTrees，Liner，RandomForest)输
出是第二层XgBoost2的输入；同样的，参数设置是在默认参数的基础上增强了泛化能力；9)模型训练结束，进行训练结果测试，对未来时段内的车辆流量数据进行预测，并输出预测结果；利用测试集数据对网络模...

【专利技术属性】
技术研发人员：高宇健，姬庆庆，刘子豪，张津丽，蒋宗礼，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人