一种基于C4.5决策树的手机用户出行方式识别方法技术

技术编号:12388909 阅读:127 留言:0更新日期:2015-11-25 22:16
本发明专利技术公开了一种基于C4.5决策树的手机用户出行方式识别方法,通过采集志愿者的手机信令数据,并按照数据的时间信息与位置信息为依据,处理成手机用户志愿者的出行轨迹序列。从志愿者出行轨迹数据中,挖掘出行特征属性与对应出行交通方式的关系。按照监督的机器学习方法,将所采集到的志愿者手机信令数据分成两部分,分别为训练数据集和测试数据集。依据通信原理与交通理论,在志愿者出行过程中对应的手机数据中提取出行行为的多种特征属性。并结合志愿者所反馈的真实出行方式情况,具有监督学习能力的人工智能算法C4.5算法,对出行方式识别模型进行训练,获取具有高准确度的基于手机信令数据的手机用户出行方式识别模型。

【技术实现步骤摘要】

本专利技术涉及交通规划与管理方法
,具体是一种基于C4.5决策树的手机用户出行方式识别方法。
技术介绍
各种交通方式的出行比例、公共交通分担率等,一直是交通规划与交通管理部门所关注的重要数据。在交通分析中,常用的交通信息采集手段包括线圈、微波、视频等。不同的信息采集手段都有其优势与适用范围。由于线圈、微波、视频等交通采集手段的使用空间范围较小,无法对人们出行行为进行持续且有效的追踪,更难以获取人们出行的OD信息。这些交通信息采集设备一般成本较高,由于成本与使用范围的限制,无法对整个城市进行大范围的覆盖。在现代社会,由于手机用户量庞大,运营商为了提供优质的通信服务,通过增加基站建设,与使得信号覆盖更广,手机信号覆盖范围广,因此手机信号数据很适合用于分析人们出行的行为,从而优化城市的交通规划与管理。目前,使用手机信号数据在进行出行起终点分析、断面手机客流量统计等初级应用已经逐渐成熟。但以手机信号数据作为数据源,进行精细化的分析还不多,例如如何识别手机用户的出行交通方式一直是业界难题。这是因为尽管手机信号能够广泛覆盖,但是基站定位的精度较低,属于模糊定位,因为无法像分析GPS数据一样,可以通过出行过程的速度值,判断用户的出行交通方式。但是GPS用户比例远远低于手机用户比例,并且GPS数据只能说明特定人群的出行特征,无法真实反映普罗大众的出行状况。尽管手机信号数据在定位精度上存在不足,但是人们出行交通方式的识别,对城市规划与交通规划都有着重要的意义,并且手机用户群体膨大,接近统计学上的全样本。
技术实现思路
本专利技术的目的在于提供一种准确度高、使用方便的基于C4.5决策树的手机用户出行方式识别方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于C4.5决策树的手机用户出行方式识别方法,具体步骤如下:(1)根据研究区域人们常用的出行交通工具,募集相应出行方式的志愿者,获取志愿者的出行情况信息与相应的手机信令数据;(2)采集志愿者的手机信令数据,基于用户编号将采集到的手机信令数据分为不同的组,再依据时间进行组内排序,形成不同志愿者的手机出行轨迹序列;(3)按照停留时间,识别出每个手机出行轨迹序列中每次出行的起点与终点,每对起点与终点之间的行程过程就是当前手机出行轨迹中的一次出行过程;(4)根据每次出行过程对应的手机数据,提取当前出行过程的出行过程特征,得到所有志愿者的所有出行过程特征,从而形成样本数据集;(5)将样本数据集中的A%的数据作为训练数据集,将样本数据集中剩余的B%的数据作为测试数据集,使用C4.5决策树算法,在训练数据集中,通过模型训练,获取采用当前交通工具出行时的出行过程特征的规律,从而为用不同的交通工具出行时找到不同的手机数据特征的规律,生成决策树模型,其中,A+B=100,且A>B;(6)再将步骤(5)所生成的决策树模型应用到测试数据集中,判断决策树模型的识别准确率是否达到预期要求,若未能达到预期要求,则或者累积更多的志愿者数据后返回步骤(2),或者返回步骤(5)对算法参数进行调整;若达到预期要求,则对决策树模型进行部署。作为本专利技术再进一步的方案:所述的步骤(4)中的出行过程特征至少包括理论距离、出行时长、平均速度、轨迹点累计距离、是否有地铁站内记录、地铁出行时长、地铁出行距离、地铁出行距离占总比、地铁出行时间占总比和路径复杂度。与现有技术相比,本专利技术的有益效果是:本专利技术能够根据不同城市的基站建设情况、手机信号特点,通过人工智能的方法,自动学习并获取适用于该城市与地区的出行方式识别方法,为交通管理与规划提供高质量的数据分析结果。具体实施方式下面结合具体实施方式对本专利的技术方案作进一步详细地说明。一种基于C4.5决策树的手机用户出行方式识别方法,具体步骤如下:(1)根据研究区域人们常用的出行交通工具,如:省、市、区等,募集相应出行方式的志愿者,获取志愿者的出行情况信息与相应的手机信令数据;(2)采集志愿者的手机信令数据,基于用户编号将采集到的手机信令数据分为不同的组,再依据时间进行组内排序,形成不同志愿者的手机出行轨迹序列;(3)按照停留时间,识别出每个手机出行轨迹序列中每次出行的起点与终点,每对起点与终点之间的行程过程就是当前手机出行轨迹中的一次出行过程;(4)根据每次出行过程对应的手机数据,提取当前出行过程的出行过程特征,得到所有志愿者的所有出行过程特征,从而形成样本数据集;(5)将样本数据集中的70%的数据作为训练数据集,将样本数据集中剩余的30%的数据作为测试数据集,使用C4.5决策树算法,在训练数据集中,通过模型训练,获取采用当前交通工具出行时的出行过程特征的规律,从而为用不同的交通工具出行时找到不同的手机数据特征的规律,生成决策树模型;(6)再将步骤(5)所生成的决策树模型应用到测试数据集中,判断决策树模型的识别准确率是否达到预期要求,若未能达到预期要求,则或者累积更多的志愿者数据后返回步骤(2),或者返回步骤(5)对算法参数进行调整;若达到预期要求,则对决策树模型进行部署。所述的步骤(4)中的出行过程特征至少包括理论距离、出行时长、平均速度、轨迹点累计距离、是否有地铁站内记录、地铁出行时长、地铁出行距离、地铁出行距离占总比、地铁出行时间占总比和路径复杂度,出行过程特征的计算如下:理论距离D:理论距离即是手机用户出行的起终点的直线距离,即OD直线距离,具体计算方式是根据手机用户的起点经纬度(lono、lato)与终点经纬度(lond、latd)计算成理论距离,公式如下:D=6371*acos{[cos(lato*3.14/180)*cos(latd*3.14/180)*cos[(lono-ond)*3.14/180]+sin(lato*3.14/180)*sin(latd*3.14/180)]本文档来自技高网
...

【技术保护点】
一种基于C4.5决策树的手机用户出行方式识别方法,其特征在于,具体步骤如下:(1)根据研究区域人们常用的出行交通工具,募集相应出行方式的志愿者,获取志愿者的出行情况信息与相应的手机信令数据;(2)采集志愿者的手机信令数据,基于用户编号将采集到的手机信令数据分为不同的组,再依据时间进行组内排序,形成不同志愿者的手机出行轨迹序列;(3)按照停留时间,识别出每个手机出行轨迹序列中每次出行的起点与终点,每对起点与终点之间的行程过程就是当前手机出行轨迹中的一次出行过程;(4)根据每次出行过程对应的手机数据,提取当前出行过程的出行过程特征,得到所有志愿者的所有出行过程特征,从而形成样本数据集;(5)将样本数据集中的A%的数据作为训练数据集,将样本数据集中剩余的B%的数据作为测试数据集,使用C4.5决策树算法,在训练数据集中,通过模型训练,获取采用当前交通工具出行时的出行过程特征的规律,从而为用不同的交通工具出行时找到不同的手机数据特征的规律,生成决策树模型,其中,A+B=100,且A>B;(6)再将步骤(5)所生成的决策树模型应用到测试数据集中,判断决策树模型的识别准确率是否达到预期要求,若未能达到预期要求,则或者累积更多的志愿者数据后返回步骤(2),或者返回步骤(5)对算法参数进行调整;若达到预期要求,则对决策树模型进行部署。...

【技术特征摘要】
1.一种基于C4.5决策树的手机用户出行方式识别方法,其特征在于,具体步骤如下:
(1)根据研究区域人们常用的出行交通工具,募集相应出行方式的志愿者,获取志愿者的出行情况信息与相应的手机信令数据;
(2)采集志愿者的手机信令数据,基于用户编号将采集到的手机信令数据分为不同的组,再依据时间进行组内排序,形成不同志愿者的手机出行轨迹序列;
(3)按照停留时间,识别出每个手机出行轨迹序列中每次出行的起点与终点,每对起点与终点之间的行程过程就是当前手机出行轨迹中的一次出行过程;
(4)根据每次出行过程对应的手机数据,提取当前出行过程的出行过程特征,得到所有志愿者的所有出行过程特征,从而形成样本数据集;
(5)将样本数据集中的A%的数据作为训练数据集,将样本数据集中剩余的B%的数据作为测试数据集,使用C4.5决策...

【专利技术属性】
技术研发人员:李振邦冉斌孟华彭敏高大震邵莉欣
申请(专利权)人:上海美慧软件有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1