基于时序数据和GMM聚类的地铁站点功能识别方法技术

技术编号:37203530 阅读:17 留言:0更新日期:2023-04-20 22:57
本发明专利技术特别涉及一种基于时序数据和GMM聚类的地铁站点功能识别方法。该基于时序数据和GMM聚类的地铁站点功能识别方法,包括智能卡时间序列数据预处理、特征值提取及标准化,数据降维、聚类数量确定及高斯混合模型GMM聚类方法、地铁站点的功能类型识别流程。该基于时序数据和GMM聚类的地铁站点功能识别方法,克服了传统聚类算法的部分局限性,具有明确的识别规则,能够根据采集到的乘客进出站刷卡的时序数据,将所有地铁站点按照不同的客流特征进行分类和功能类型划分。行分类和功能类型划分。行分类和功能类型划分。

【技术实现步骤摘要】
基于时序数据和GMM聚类的地铁站点功能识别方法


[0001]本专利技术涉及数据分析与建模
,特别涉及一种基于时序数据和GMM聚类的地铁站点功能识别方法。

技术介绍

[0002]地铁车站是地铁网络的关键节点,不仅提供旅客的乘降、换乘及候车服务,也逐渐成为城市中各种经济社会活动的集聚场所。但由于不同车站在城市中的区位特征、交通功能等方面均存在差异,导致其客流量的时空分布具有显著的不均衡性。因此,研究地铁车站的科学、合理分类及功能识别,并根据分类结果制定个性化运营方案对合理分配公共交通资源、缓解大客流风险具有重要意义。
[0003]近年来,随着地铁自动售检票系统的广泛应用,该系统采集到的智能卡时间序列数据实时地记录了乘客进出站刷卡的行为,具有时空信息完整和样本覆盖全面等优势,为国内外学者研究站点分类和功能识别提供了新的思路。
[0004]传统的反映地铁站点客流特征的统计数据存在更新慢、精度低、主观性较强等缺陷,而具有全样本优势的地铁刷卡数据常常由于存在异常或无效记录、数据噪点等问题也无法直接用来反映站点的实际客流特征,需要一定的数据清洗和处理手段。
[0005]目前已有的利用地铁刷卡数据对车站类型划分的方法中,仍然存在着一些不足,主要表现在两个方面:
[0006]一是大多数研究采用的K

means聚类算法具有一定的局限性,如聚类数量无法确定、对异常点较为敏感、容易陷入局部最优等。
[0007]二是聚类类别的选择较为定性,没有提出一种规范的车站类型识别方法。<br/>[0008]因此,有必要提出一种规范化的流程,为利用智能卡数据对地铁站点进行分类和功能识别研究提供参考。
[0009]为了克服传统聚类算法的局限性,本专利技术提出了一种基于时序数据和GMM聚类的地铁站点功能识别方法。

技术实现思路

[0010]本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于时序数据和GMM聚类的地铁站点功能识别方法。
[0011]本专利技术是通过如下技术方案实现的:
[0012]一种基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:包括以下步骤:
[0013]步骤S1、智能卡时间序列数据预处理
[0014]针对地铁站点刷卡的全样本时间序列数据,通过进出站匹配、数据清洗与统计分析手段获取各个站点的逐小时进出站客流量;
[0015]步骤S2、特征值提取及标准化,数据降维
[0016]采用均值滤波、Z

score标准化和PCA主成分分析方法提取各个地铁站点的客流特征;步骤S3、聚类数量确定及高斯混合模型GMM聚类方法
[0017]在引入层次聚类中的“肘方法”确定了聚类数量的前提下,基于GMM聚类分析方法对站点进行分类处理;
[0018]步骤S4、地铁站点的功能类型识别
[0019]根据聚类结果,提出地铁站点类型划分的判断标准,实现了站点的功能识别。
[0020]所述步骤S1中,地铁站点刷卡的全样本时间序列数据包括但不限于一个城市不少于连续两周的工作日内地铁进出站刷卡或扫码的全样本数据;所述刷卡或扫码的全样本数据包括但不限于智能卡卡号,进站或出站时间,进站点或出站点,以及进出站标识字段;
[0021]采集刷卡或扫码的全样本数据后,首先对采集到的数据与同一用户单次OD(起讫点调查)记录进行匹配,即将同一卡号的进出站记录分离,并按时间顺序匹配合并为一条出行记录;
[0022]其次,添加一条出行时间字段,计算规则为出站刷卡时间减去进站刷卡时间,将出行时间大于3小时的记录定义为过长,出行时间小于5分钟的记录定义为过短;
[0023]最后,按照匹配结果、地铁运营时间和出行时间字段对出行记录进行清洗,将缺失进站或出站信息的记录,刷卡时间不在地铁运营范围内的记录,以及出行时间过长或过短的记录进行删除,完成数据的清洗。
[0024]所述步骤S2中,利用SQL语言检索每日逐小时进出站的客流量,使用均值滤波方法消除单日客流的偶然波动影响,对工作日每小时进出站客流量取平均值;
[0025]为了消除不同车站客流量相对大小的影响,采用Z

score对特征值进行标准化;
[0026]为了消除冗余数据,提高计算性能,采用PCA主成分分析方法对特征值进行降维。
[0027]所述步骤S2中,采用Z

score对特征值进行标准化,如下式:
[0028][0029]式中:x

ij
为第i个车站第j个小时进站或出站客流量的Z

score标准化值;x
ij
为第i个车站第j个小时进站或出站客流量;μ
i
为第i个车站进站或出站客流量的小时平均值;σ
i
为第i个车站进站或出站客流量的标准差。
[0030]所述步骤S2中,PCA主成分分析方法中,提取主成分的标准为KMO(Kaiser

Meyer

Olkin,测试来评估是否恰当的运用因子分析的数据)检验系数大于0.5,Bartlett显著性检验指标小于0.05且累积贡献率为85%以上。
[0031]所述步骤S3中,采用高斯混合模型GMM聚类算法按照客流特征对地铁站点进行分类,具体算法如下:
[0032]将地铁站点分为k类,且假设每一类站点均符合高斯分布,则每一个站点x
i
由k个单高斯分布的混合模型表示;因此,地铁站点由高斯混合模型生成的概率分布模型为:
[0033][0034]其中,x是维度为m的向量;α
i
≥0,且∑α
i
=1,是第i个单高斯分布的概率;φ(x|θ
i
)是第i个单高斯分布的概率密度,其表达式为:
[0035][0036]采用期望最大化(Expectation Maximization,EM)算法对高斯混合模型进行求解,循环迭代至算法收敛。
[0037]所述步骤S3中,期望最大化算法对高斯混合模型进行求解,具体运算步骤如下:
[0038]步骤S3.1、初始化模型参数θ;
[0039]步骤S3.2、E步(Expectation):估计每个单高斯分布生成的概率,对第j个观测数据x
j
,概率密度φ(x|θ
i
)的响应度为:
[0040][0041]其中,是当前模型参数θ下第j个观测数据来自第i个单高斯分布模型的概率,称为分模型i对观测数据y
j
的响应度;
[0042]步骤S3.3、M步(Maximization):将似然函数最大化以求得每个单高斯分布模型的参数值:
[0043][0044][0045][0046]步骤S3.4、重复步骤S3.2和步骤S3.3,直到收敛而停止迭代。
[0047]所述步骤S4中,对GMM聚类结果进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:包括以下步骤:步骤S1、智能卡时间序列数据预处理针对地铁站点刷卡的全样本时间序列数据,通过进出站匹配、数据清洗与统计分析手段获取各个站点的逐小时进出站客流量;步骤S2、特征值提取及标准化,数据降维采用均值滤波、Z

score标准化和PCA主成分分析方法提取各个地铁站点的客流特征;步骤S3、聚类数量确定及高斯混合模型GMM聚类方法在引入层次聚类中的“肘方法”确定了聚类数量的前提下,基于GMM聚类分析方法对站点进行分类处理;步骤S4、地铁站点的功能类型识别根据聚类结果,提出地铁站点类型划分的判断标准,实现了站点的功能识别。2.根据权利要求1所述的基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:所述步骤S1中,地铁站点刷卡的全样本时间序列数据包括但不限于一个城市不少于连续两周的工作日内地铁进出站刷卡或扫码的全样本数据;所述刷卡或扫码的全样本数据包括但不限于智能卡卡号,进站或出站时间,进站点或出站点,以及进出站标识字段;采集刷卡或扫码的全样本数据后,首先对采集到的数据与同一用户单次OD记录进行匹配,即将同一卡号的进出站记录分离,并按时间顺序匹配合并为一条出行记录;其次,添加一条出行时间字段,计算规则为出站刷卡时间减去进站刷卡时间,将出行时间大于3小时的记录定义为过长,出行时间小于5分钟的记录定义为过短;最后,按照匹配结果、地铁运营时间和出行时间字段对出行记录进行清洗,将缺失进站或出站信息的记录,刷卡时间不在地铁运营范围内的记录,以及出行时间过长或过短的记录进行删除,完成数据的清洗。3.根据权利要求1所述的基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:所述步骤S2中,利用SQL语言检索每日逐小时进出站的客流量,使用均值滤波方法消除单日客流的偶然波动影响,对工作日每小时进出站客流量取平均值;为了消除不同车站客流量相对大小的影响,采用Z

score对特征值进行标准化;为了消除冗余数据,提高计算性能,采用PCA主成分分析方法对特征值进行降维。4.根据权利要求3所述的基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:所述步骤S2中,采用Z

score对特征值进行标准化,如下式:式中:x

ij
为第i个车站第j个小时进站或出站客流量的Z

score标准化值;x
ij
为第i个车站第j个小时进站或出站客流量;μ
i
为第i个车站进站或出站客流量的小时平均值;σ
i
为第i个车站进站或出站客流量的标准差。5.根据权利要求3所述的基于时序数据和GMM聚类的地铁站点功能识别方法,其特征在于:所述步骤S2中,PCA主...

【专利技术属性】
技术研发人员:杨兴
申请(专利权)人:山东浪潮新基建科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1