一种基于大数据的经济活动人口识别方法技术

技术编号:17838128 阅读:52 留言:0更新日期:2018-05-03 19:37
本发明专利技术提供的一种基于大数据的经济活动人口识别方法利用移动终端个体在指定时间范围和空间范围内的活动数据集(即移动终端个体与固定位置传感器的通信记录),构成个体出行轨迹,对出行轨迹进行插值扩充节点,建立个体出行轨迹;通过空间聚类方法将个体的出行空间划分为若干区域,提取其长时间驻留地点;选取样本个体的出行轨迹,对其进行训练,学习获得各种经济活动人口的出行活动的空间分布特征及其相关参数;对全样本的数据进行分析,识别判断出样本中的经济活动人口;最后采样固定比例进行扩样,得到实时的经济活动人口总数。

A method of identifying economically active population based on big data

The present invention provides an economic population identification method based on large data, which makes use of the mobile terminal individual's active data set in the specified time range and space range (i.e. the communication record of the mobile terminal individual and the fixed position sensor). The trip space is divided into several regions by spatial clustering method, and the long time residency location is extracted. The travel trajectory of the sample individual is selected and the spatial distribution characteristics and related parameters of the travel activities of various economic active population are learned and the related parameters are obtained. It identifies and identifies the economically active population in the sample, and finally samples the sample in a fixed proportion to obtain the total number of economically active population in real time.

【技术实现步骤摘要】
一种基于大数据的经济活动人口识别方法
本专利技术涉及一种基于海量匿名加密时间序列定位数据的经济活动人口的识别的方法,根据个体的时间和空间位置数据构建海量的个体出行轨迹;通过空间聚类将个体的出行轨迹划分为若干区域,对其长时间的驻留点进行判断和提取;通过样本训练学习获得各种经济活动人口的日常出行模式特征及其相关的参数取值;对全样本个体出行轨迹进行识别,判断其是否属于经济活动人口,以及属于哪一类经济活动人口;对样本数据进行扩样,获得全社会的经济活动人口数量和分布。
技术介绍
经济活动人口指的是所有年龄在16岁及以上,在一定时期内为各种经济生产和服务活动提供劳动力供给的人口。这些人被视为实际参加或要求参加社会经济活动的人口,也称为现实的人力资源,是就业人口和失业人口之和。经济活动人口的调查和统计对于社会经济稳定和发展状况的分析和预测具有重要的现实意义。传统对于经济活动人口的统计往往依赖大样本和长时间的抽样调查,这种调查方法在时间和人力物力方面的消耗都非常大,而且其抽样比例并不高,统计的时效性也会存在滞后的问题,严重降低了经济活动人口调查的实用性。近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据分析,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2017年9月,手机用户达到14.1亿,超过现阶段人口总量13.827亿,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。
技术实现思路
本专利技术的目的是:利用大数据及其分析技术训练和识别经济活动人口的日常出行行为特征,以此为基础判断识别总样本中的经济活动人口,分析其时序变化特征,实时监测经济活动人口的变化。为了达到上述目的,本专利技术的技术方案是利用移动终端个体在指定时间范围和空间范围内的活动数据集(即移动终端个体与固定位置传感器的通信记录),构成个体出行轨迹,对出行轨迹进行插值扩充节点,建立个体出行轨迹;通过空间聚类方法将个体的出行空间划分为若干区域,提取其长时间驻留地点;选取样本个体的出行轨迹,对其进行训练,学习获得各种经济活动人口的出行活动的空间分布特征及其相关参数;对全样本的数据进行分析,识别判断出样本中的经济活动人口;最后采样固定比例进行扩样,得到实时的经济活动人口总数。具体而言,本专利技术提供的一种基于大数据的经济活动人口识别方法包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据在时间与空间上连续,不同移动终端对应不同的EPID;步骤2、依次提取每个EPID在指定时间段内与传感器的通信信令记录,按时间顺序排序,建立与当前EPID相对应的个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对个体出行轨迹数据集的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;步骤3、基于DBSCAN算法,设计基于距离的空间聚类算法,对样本的个体出行时空序列数据上的插值点进行空间聚类,提取出节点的节点聚类簇,从中提取出节点聚类簇中的核心点作为当前个体的驻留点,以个体在节点聚类簇内驻留的时间作为节点聚类簇的大小;步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;步骤5、遍历个体出行时空序列,依据步骤4获得的判别依据,对每个个体的经济活动类型进行判断和识别;步骤6、对得到的经济活动个体进行扩样,得到经济活动人口的总体统计数据,完成对于经济活动人口的动态监测,并更新数据库。优选地,在所述步骤1中,匿名加密移动终端传感器数据包括:用户个体唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID,其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号。优选地,所述步骤2包括:步骤2.1、提取个体出行轨迹数据集中,所有的固定位置传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标LON-LAT转换为地理坐标X-Y;步骤2.2、遍历个体出行轨迹数据集,将其按触发通信时间TIMESTAMP顺序排列;步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为个体出行轨迹的时间,y轴为通信记录点的X-Y坐标,若个体的出行轨迹包含n个通信记录点,则总共需要拟合出2n-4条二次曲线;步骤2.4、从时间起点t0出发出发,按时间间隔T计算个体在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;步骤2.5、将所有插值点和记录点按时间顺序排序,构成初步的个体的出行时空序列数据;步骤2.6、对步骤2.5得到的出行时空序列数据进行分割,以记录点为端点,平均分割所有两两记录点之间的插值点,将插值点归属到离其最近的记录点,将记录点中的传感器编号赋给插值点,表明插值点也是潜在的会于该传感器通信的点;步骤2.7、从步骤2.5得到的出行时空序列数据中删除所有的记录点,从而使得到的个体出行时空序列完全由赋有传感器编号的插值点组成。优选地,所述步骤3包括:步骤3.1、从数据库中读取已由步骤2得到的个体出行时空序列,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的N1个临近节点,前后各个;步骤3.2、假设当前遍历到节点n,则其前后临近点的边界为节点和统计从节点到节点的分段距离和式中,Di表示节点到节点区间内,从节点i到节点i+1之间的距离,即区间内相邻节点之间的距离,该距离以欧式距离计算;步骤3.3、根据得到的节点n邻域内的分段距离和,计算以节点n为中心的邻域的节点密度ρ,步骤3.4、判断以节点n为中心的邻域的节点密度ρ是否大于临界阈值Thr-ρ,若大于临界阈值Thr-ρ,则当前邻域内为密度可达,将该邻域标注为一个节点n的节点聚类簇,令其密度相连,将其内部所有的节点都标注为聚类节点,记录下其外部前后的一个节点的空间坐标;若小于临界阈值Thr-ρ,则舍弃当前邻域,继续遍历下一个节点;步骤3.5、采用步骤3.2至步骤3.4遍历完整个个体出行时空序列后,从头开始遍历每个判定的节点聚类簇,判断:1)相邻的节点聚类簇所包含的节点之间是否有交集,若存在交集,则该两个节点聚类簇之间密度可达,将这两个节点聚类簇合并为一个,令其密度相连,重新计算合并后的节点聚类簇的节点密度,并统计节点聚类簇内的节点数量;2)每个节点聚类簇内的插值点数量是否小于阈值Thr-n,若小于阈值Thr-n,则表明个体在该节点聚类簇内的停留时间太短,达不到驻留标准,舍弃该节点聚类簇;步骤3.6、遍历每个留存下来的节点聚类簇,计本文档来自技高网
...
一种基于大数据的经济活动人口识别方法

【技术保护点】
一种基于大数据的经济活动人口识别方法,其特征在于,包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据在时间与空间上连续,不同移动终端对应不同的EPID;步骤2、依次提取每个EPID在指定时间段内与传感器的通信信令记录,按时间顺序排序,建立与当前EPID相对应的个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对个体出行轨迹数据集的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;步骤3、基于DBSCAN算法,设计基于距离的空间聚类算法,对样本的个体出行时空序列数据上的插值点进行空间聚类,提取出节点的节点聚类簇,从中提取出节点聚类簇中的核心点作为当前个体的驻留点,以个体在节点聚类簇内驻留的时间作为节点聚类簇的大小;步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;步骤5、遍历个体出行时空序列,依据步骤4获得的判别依据,对每个个体的经济活动类型进行判断和识别;步骤6、对得到的经济活动个体进行扩样,得到经济活动人口的总体统计数据,完成对于经济活动人口的动态监测,并更新数据库。...

【技术特征摘要】
1.一种基于大数据的经济活动人口识别方法,其特征在于,包括以下步骤:步骤1、从传感器运营商获取匿名加密移动终端传感器数据,匿名加密移动终端传感器数据在时间与空间上连续,不同移动终端对应不同的EPID;步骤2、依次提取每个EPID在指定时间段内与传感器的通信信令记录,按时间顺序排序,建立与当前EPID相对应的个体出行轨迹数据集;从时间起点t0出发,以T时间为间隔对个体出行轨迹数据集的空间位置进行插值,构建由真实点和插值点构成的个体出行时空序列;步骤3、基于DBSCAN算法,设计基于距离的空间聚类算法,对样本的个体出行时空序列数据上的插值点进行空间聚类,提取出节点的节点聚类簇,从中提取出节点聚类簇中的核心点作为当前个体的驻留点,以个体在节点聚类簇内驻留的时间作为节点聚类簇的大小;步骤4、对经济活动和非经济活动类型进行划分,选取其中的典型样本的出行时空序列数据,统计其在指定时间段内的聚类数量、聚类大小、聚类中心点所在位置,挖掘不同活动类型的个体的空间出行活动特征,获得不同活动类型的典型特征参数及其上下界误差范围,作为个体活动类型的判别依据;步骤5、遍历个体出行时空序列,依据步骤4获得的判别依据,对每个个体的经济活动类型进行判断和识别;步骤6、对得到的经济活动个体进行扩样,得到经济活动人口的总体统计数据,完成对于经济活动人口的动态监测,并更新数据库。2.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,在所述步骤1中,匿名加密移动终端传感器数据包括:用户个体唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID,其中,传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号。3.如权利要求2所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤2包括:步骤2.1、提取个体出行轨迹数据集中,所有的固定位置传感器编号REGIONCODE-SENSORID及其对应的经纬度坐标LON-LAT,将经纬度坐标LON-LAT转换为地理坐标X-Y;步骤2.2、遍历个体出行轨迹数据集,将其按触发通信时间TIMESTAMP顺序排列;步骤2.3、从时间起点开始遍历出行数据,相邻的每3个通信记录点拟合一条二次曲线,二次曲线的x轴为个体出行轨迹的时间,y轴为通信记录点的X-Y坐标,若个体的出行轨迹包含n个通信记录点,则总共需要拟合出2n-4条二次曲线;步骤2.4、从时间起点t0出发出发,按时间间隔T计算个体在每个时间点的X-Y坐标,相同时间X(t0+nT)和Y((t0+nT)构成一个插值点,除首尾两段外,其余通信点之间都存在2条拟合曲线,在此之间的插值点的X-Y坐标由两条曲线的计算结果求平均得到;步骤2.5、将所有插值点和记录点按时间顺序排序,构成初步的个体的出行时空序列数据;步骤2.6、对步骤2.5得到的出行时空序列数据进行分割,以记录点为端点,平均分割所有两两记录点之间的插值点,将插值点归属到离其最近的记录点,将记录点中的传感器编号赋给插值点,表明插值点也是潜在的会于该传感器通信的点;步骤2.7、从步骤2.5得到的出行时空序列数据中删除所有的记录点,从而使得到的个体出行时空序列完全由赋有传感器编号的插值点组成。4.如权利要求1所述的一种基于大数据的经济活动人口识别方法,其特征在于,所述步骤3包括:步骤3.1、从数据库中读取已由步骤2得到的个体出行时空序列,从时间起点开始遍历,以每个节点为中心,查找其前后邻域中的N1个临近节点,前后各个;步骤3.2、假设当前遍历到节点n,则其前后临近点的边界为节点和统计从节点到节点的分段距离和式中,Di表示节点到节点区间内,从节点i到节点i+1之间的距离,即区间内相邻节点之间的距离,该距离以欧式距离计算;步骤3.3、根据得到的节点n邻域内的分段距离和,计算以节点n为中心的邻域的节点密度ρ,步骤3.4、判断以节点n为中心的邻域的节点密度ρ是否大于临界阈值Thr-ρ,若大于临界阈值Thr-ρ,则当前邻域内为密度可达,将该邻域标注为一个节点n的节点聚类簇,令其密度相连,将其内部所有的节点都标注为聚类节点,记录下其外部前后的一个节点的空间坐标;若小于临界阈值Thr-ρ,则舍弃当前邻域,继续遍历下一个节点;步骤3.5、采用步骤3.2至步骤3.4遍历完整个个体出行时空序列后,从头开始遍历每个判定的节点聚类簇,判断:1)相邻的节点聚类簇所包含的节点之间是否有交集,若存在交集,则该两个节点聚类簇之间密度可达,将这两个节点聚类簇合并为一个,令其密度相连,重新计算合并后的节点聚类簇的节点密度,并统计节点聚类簇内的节点数量;2)每个节点聚类簇内的插值点数量是否小于阈值Thr-n,若小于阈值Thr-n,则表明个体在该节点聚类簇内的停留时间太短,达不到驻留标准,舍弃该节点聚类簇;步骤3.6、遍历每个留存下来的节点聚类簇,计算每个节点聚类簇的加权中心点C,其中权重w为节点聚类簇内节点距离其加权中心点C的序号差,若节点聚类簇内节点数为M,则第1个和第M...

【专利技术属性】
技术研发人员:刘杰冷燮周示莹彭成阳顾高翔张颖吴佳玲
申请(专利权)人:上海世脉信息科技有限公司上海市浦东新区统计普查中心
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1