【技术实现步骤摘要】
一种基于改进KNN的分布式地铁客流预测方法
[0001]本专利技术涉及交通
,具体涉及一种基于改进KNN的分布式地铁客流预测方法。
技术介绍
[0002]现阶段,地铁交通成为人们日常的出行方式。然而,随着城市人口的不断增加,地铁站拥堵问题频繁发生。预测地铁客流极其重要。根据预测的客流人数,地铁站可以实时调度人力物力,以缓解地铁站拥堵的问题。
[0003]通过分析单个地铁站每日的客流数据,可以发现单个地铁站客流存在一定的规律。本研究提出将单个地铁站的历史入站刷卡数据与预测当天实时刷卡数据相结合,融合KNN(K近邻)和LightGBM(Light Gradient Boosting Machine),在分布式系统下预测地铁客流的方法。
[0004]现有的方法存在以下问题:
[0005]1、传统的预测方法,结果精度不高。
[0006]2、现有精度较高的预测方法在数据量大时,运行时间较长。
技术实现思路
[0007]专利技术目的:本专利技术提供了一种基于改进KNN的的分布式地铁客流预测方法,其目的在于能够在历史数据庞大的条件下,借助分布式系统并行处理数据的方法建立预测模型来预测当天地铁客流。
[0008]一种基于改进KNN的的分布式地铁客流预测方法,包括以下步骤:
[0009]步骤1:搭建Hadoop分布式环境,Hadoop分布式环境包括HDFS(Hadoop Distributed File System)分布式文件系统,搭建服务器的Spark分布式环境 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进KNN的分布式地铁客流预测方法,其特征在于,包括如下步骤:步骤1:搭建Hadoop分布式环境,Hadoop分布式环境包括HDFS分布式文件系统,搭建服务器的Spark分布式环境;步骤2:获取具体一个地铁站的所有的历史入站刷卡记录以及预测当天的入站刷卡记录,存入HDFS分布式文件系统;步骤3:根据历史入站刷卡记录,按照小时划分,利用分布式系统统计出一天中每个小时的刷卡数量,作为一小时内的地铁客流;步骤4:分布式计算所有的历史入站人数与预测当天的入站人数的向量距离,按照升序排列;步骤5:对于步骤4中得到的数据,选取不同的K值,计算第一至第K个向量距离的偏差和方差,当偏差和方差最小时,得到最优的K值;步骤6:根据最优的K值,利用历史的客流数据,用来训练LightGBM算法模型;步骤7:根据最优的K值,选择K条历史入站人数的数据,输入到LightGBM算法模型,得到K组每小时的预测值;步骤8:根据K组每小时的预测值,利用K近邻预测当天每小时的地铁客流。2.根据权利要求1所述的一种基于改进KNN的分布式地铁客流预测方法,其特征在于,步骤2中,对于历史入站刷卡记录和预测当天的入站刷卡记录,以入站刷卡记录作为入站人数,记录的结构包括记录时间和用户识别号。3.根据权利要求2所述的一种基于改进KNN的分布式地铁客流预测方法,其特征在于,步骤3中,从HDFS分布式文件系统中读取历史入站刷卡记录数据,并对读取的数据进行分布式并行处理,得到每一天的人数数据,一天中按照小时划分。4.根据权利要求3所述的一种基于改进KNN的分布式地铁客流预测方法,其特征在于,步骤4中,利用了Hadoop的MapReduce过程进行计算,MapReduce包括Map阶段和Reduce阶段,具体包括如下步骤:步骤4
‑
1:读取n天的历史入站人数s
n
={x
n1
,x
n2
,
…
,x
n24
},x
ni
代表第n天i时的人数,i取值为1~24且i为整数,读取预测当天的数据q={y1,y2,
…
,y
k
},y
k
代表预测当天k时的人数,k取值为2~23,且为整数;步骤4
‑
2:分布式计算向量距离i=1,2,
…
,n,具体的,将键值对<i,s
i
>作为Map阶段的输入,其中s
i
为第i天的历史入站人数;将<L
i
,i>作为Map阶段的输出;在Reduce阶段,对<L...
【专利技术属性】
技术研发人员:李玉萍,张巍,徐磊,杨晓波,崔昕,
申请(专利权)人:中通服咨询设计研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。