基于近邻回归的实时公交客流预测方法技术

技术编号:18711011 阅读:36 留言:0更新日期:2018-08-21 22:42
本发明专利技术公开了一种基于近邻回归的实时公交客流预测方法,该方法利用公交线路和站点的客流历史和实时数据来预测未来时间段的公交客流。本发明专利技术首先建立了拥有大量的历史公交客流数据的数据库,对数据进行数据预处理保证样本的数据质量,利用近邻回归算法,设定模型的距离度量方式、近邻个数K以及预测公式,根据当前实时客流人数预测未来时间段的客流人数,预测精度较高,具有简便的操作性和普适性,能够解决公交客流的非线性和复杂性问题,为公交调度合理排班提供有力依据,同时能够提高乘客出行的满意度与舒适度。

Real time bus passenger flow forecasting method based on nearest neighbor regression

The invention discloses a real-time bus passenger flow prediction method based on nearest neighbor regression, which uses the passenger flow history of bus lines and stations and real-time data to predict the bus passenger flow in future time periods. The invention first establishes a database with a large number of historical bus passenger flow data, preprocesses the data to ensure the data quality of the sample, and uses the nearest neighbor regression algorithm to set the distance measurement mode, the number of nearest neighbors K and the prediction formula of the model, and forecasts the passenger flow in the future period according to the current real-time passenger flow number. It can solve the non-linear and complex problems of bus passenger flow, provide a strong basis for reasonable scheduling of public transport, and at the same time can improve passenger travel satisfaction and comfort.

【技术实现步骤摘要】
基于近邻回归的实时公交客流预测方法
本专利技术涉及公交系统客流预测
,具体地指一种基于近邻回归的实时公交客流预测方法。
技术介绍
在交通领域,大数据一直被视作缓解交通压力的技术利器。随着手机网络、全球定位系统/北斗车载导航、车联网、交通物联网的发展,交通要素的人、车、路等的信息都能够实时采集,城市交通大数据来源日益丰富。公交客流量作为一个能体现人们出行规律以及公交负载量的重要数据指标,准确有效的公交客流预测不仅为公交调度合理排班提供有力依据。公交客流数据的显著特点是具有高度的非线性和不确定性,这种不确定性指的是客流不仅会受到天气状况、季节变化等自然条件的影响,还会受上下班高峰期和节假日等时间因素的影响,这些因素的存在都是客流预测的难点。对于公交客流预测问题,目前的主要研究方法主要分为统计学预测方法和机器学习预测方法。主要分为如下几类:时间序列模型,历史平均模型,统计预测,神经网络和支持向量机等。传统的统计学方法如时间序列模型依赖于历史数据的质量,不能够充分考虑客流数据的不确定性,此类预测方法精度不高,可靠性低。神经网络和支持向量机等机器学习预测方法能够提高预测精度,但是模型复杂度过高,训练时间过长,参数选取困难。
技术实现思路
本专利技术就是针对上述技术问题,提供提出一种基于近邻回归的实时公交客流预测方法,该方法模型简便、预测精度高以及具有良好的普适性。为实现上述目的,本专利技术所设计的一种基于近邻回归的实时公交客流预测方法,其特征在于,它包括如下步骤:步骤1:从现有的公交业务信息数据库中提取待预测公交线路的历史客流数据和实时客流数据;步骤2:按如下方式对提取的历史客流数据和实时客流数据进行预处理;首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据;然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺;最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则(3σ),对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据;步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,该距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:其中,dn(i)表示当前时间段i的客流量与历史时间段n的客流量的欧氏距离;xit表示当前时间段i的客流量Xi的第t个采样点的客流量,p表示当前时间段i中采样点的个数;xnt表示历史时间段n的客流量Xn的第t个采样点的客流量;步骤4:将上述步骤求出的欧氏距离从小到大进行排序,选取最小的K个欧氏距离以及所对应的时间段,根据欧氏距离大小按以下公式构建权重系数,表达式为:其中,ωj(i)为客流量预测权重因子,j表示最小的K个欧氏距离的次序,j=1,2,…,K;dj(i)表示当前时间段i的客流量与j所对应时间段的客流量的欧氏距离;步骤5:对最小的K个欧氏距离所对应的历史时间段中每时间段的下一时间段的客流量Xj(i)进行加权求和,得到时间段i+1的预测客流量,其预测公式为:其中,表示对i+1时间段的预测值,即完成公交客流预测。本专利技术提供一个能实时预测未来时间段内的公交客流的方法,预测结果能够为公交运营合理调度提供有力的参考依据。本专利技术利用现实世界中的事物和现象都具有规律性和重现性,在相似的条件下往往会产生相似的结果的特点,首先,利用了拥有大量的历史公交客流数据的数据库,对数据进行数据预处理,利用近邻回归算法,设定模型的距离度量方式、近邻个数K以及预测公式,提出了一种基于近邻回归的实时公交客流预测方法,能够对实时客流进行准确预测。与传统方法相比,该方法是一种类似范例推理的启发式预测技术,它的模型隐含在大量历史数据中,且认为这些历史数据之前存在着潜在的关系,预测精度高,能够解决公交客流的非线性和复杂性问题,操作简便,参数依赖性小,具有良好的普适性等优点。附图说明图1为本专利技术的预测算法流程图;图2为实例中不同K值下的模型预测误差;图3为实例中客流原始数据与预测值的对比图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步的详细说明。本专利技术的一种基于近邻回归的实时公交客流预测方法,该方法应用于公交系统的短期客流预测。为了预测下一个时间段的客流,利用历史客流数据,根据设定的距离度量方式,计算匹配出历史各个时间段客流与当前时间段客流最相近的K个近邻,利用距离的倒数构建加权因子,将K个近邻的下一时间段的客流进行加权求和,得到预测的下一时间段的客流,具体详细的步骤如下:步骤1:现有公交业务信息数据库由刷卡设备传输乘客刷卡乘车的数据信息记录,可以从数据库中提取待预测公交线路(或站点)的历史客流数据和实时客流数据;步骤2:为了保证样本数据的质量,精准的预测模型打下基础,按如下方式对提取的历史客流数据和实时客流数据进行预处理;首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据(刷卡机器故障、设备传输等原因);然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺(刷卡机器故障、设备传输等原因);最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则,对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据(不正常的点可能是真实值也可能不是真实值);步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:其中,dn(i)表示当前时间段i的客流量与历史时间段n的客流量的欧氏距离(为了表征两向量之间的相似度,引入度量距离的方式,用于计算匹配与当前时间段最相近的历史时间段。两向量之间的距离可以反映他们之间的相似程度,距离越近相似程度越高);xit表示当前时间段i的客流量Xi的第t个采样点的客流量,p表示当前时间段i中采样点的个数;xnt表示历史时间段n的客流量Xn的第t个采样点的客流量;步骤4:将上述步骤求出的欧氏距离从小到大进行排序,选取最小的K个欧氏距离以及所对应的时间段,根据欧氏距离大小按以下公式构建权重系数,表达式为:其中,ωj(i)为客流量预测权重因子(对于当前时间段i,赋予时间段j的权重系数),j表示最小的K个欧氏距离的次序,j=1,2,…,K;距离近的赋予大的权重因子,距离小的赋予小的权重因子;dj(i)表示当前时间段i的客流本文档来自技高网...

【技术保护点】
1.一种基于近邻回归的实时公交客流预测方法,其特征在于,它包括如下步骤:步骤1:从现有的公交业务信息数据库中提取待预测公交线路的历史客流数据和实时客流数据;步骤2:按如下方式对提取的历史客流数据和实时客流数据进行预处理;首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据;然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺;最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则,对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据;步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,该距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:...

【技术特征摘要】
1.一种基于近邻回归的实时公交客流预测方法,其特征在于,它包括如下步骤:步骤1:从现有的公交业务信息数据库中提取待预测公交线路的历史客流数据和实时客流数据;步骤2:按如下方式对提取的历史客流数据和实时客流数据进行预处理;首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据;然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺;最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则,对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据;步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,该距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:其中,dn(i)表示当前时间段i的客流量与历史时间段n的客流量的欧氏距离;xit表示当前时间段i的...

【专利技术属性】
技术研发人员:王亚领吴鹏喻小林周泽斐荣华巴瑞花
申请(专利权)人:武汉蓝泰源信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1