一种大数据环境下个体时空活动鲁棒性的计算方法技术

技术编号:35498423 阅读:22 留言:0更新日期:2022-11-05 17:01
本发明专利技术的目的是利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的时空轨迹数据,插值拟合后获得等时间隔的个体时空轨迹,将其投射到二维格网空间中对其进行聚类并计算鲁棒性,最后通过统计随机个体的时空格网序列的鲁棒性计算值的分布特征获得校验区间,对个体的时空活动鲁棒性进行校验,以此可低成本、自动化、便捷地获取指定时间范围内大量人口的时空活动轨迹,为交通出行需求的预测提供微观行为基础。预测提供微观行为基础。预测提供微观行为基础。

【技术实现步骤摘要】
一种大数据环境下个体时空活动鲁棒性的计算方法


[0001]本专利技术涉及一种基于海量匿名加密时间序列定位数据的个体时空活动鲁棒性计算方法,属于大数据分析


技术介绍

[0002]近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,手机终端设备与运营商基站之间持续产生的信号控制指令信息,形成了记录用户出行活动轨迹的一系列手机信令数据集,较为完备地记录了海量个体持续时间段内的相对完整的空间出行活动轨迹,为人类行为动力学特征分析提供了很好的数据支持。
[0003]鲁棒性指的是系统受外部冲击带来的扰动程度,鲁棒性越高,系统受外部冲击产生的影响越小。若将个体的出行范围和频次看作一个系统,其时空活动鲁棒性越高,则其日常出行越规律,也越具可预测性。因而,对整个城市来说,大量居民的个体时空活动鲁棒性的计算,对总体居民日常出行规律性的把握具有重要的现实意义。

技术实现思路

[0004]本专利技术的目的是利用移动终端个体在较长时间范围(建议3个月以上)内的空间活动数据集,对大量个体的日常时空活动数据进行提取,通过比较分析个体在不同时间段内空间活动的规律性,进而计算个体时空活动的鲁棒性,并对其结果进行校验获取其显著性指标。为了达到上述目的,本专利技术的技术方案提供了一种大数据环境下个体时空活动鲁棒性计算方法,包括以下步骤:步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,构建个体出行轨迹数据集,以T时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到M
×
N大小的二维空间格网中,建立个体时空格网序列;步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
[0005]优选地,所述步骤1包括:步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,初步构建由个体和固定传感器通信记录构成的个体出行数据,个体和固定传感器之间通信记录提取方法参见申请号为201710535039.7的中国专利。具体方法为读取信令记录,解密后转化经纬度坐标为地理坐标,根据用户编号查询其指定时间段内通信记录,构建用户出行轨
迹数据集;步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以T为时间间隔计算个体在各个时间点的X

Y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹,个体时空活动轨迹的构建方法参见申请号为201710843841.2的中国专利。具体方法为遍历由个体和固定传感器通信记录构成的初步的个体出行数据按通信时间排序,从时间起点开始每3个通信记录点依次拟合二次曲线,从整点出发等间隔构成一个插值点,其坐标为2条拟合曲线均值,最终所有插值点按顺序排序,构成用户出行时空序列;步骤1.3、以个体所在城市的空间范围为边界,生成一个M
×
N的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的X

Y编号替代个体时空活动轨迹中的X

Y坐标,建立个体的时空格网序列;优选地,所述步骤2包括:步骤2.1、以时间间隔IT为单位,将个体的时空格网序列截断为多条可比较的序列;步骤2.2、基于等位节点比较的思想,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:式中, 表示两条序列的等位点t的相似性,其上限为k;k表示两条序列的等位点所在空间位置完全一致情况下的权重;表示序列i在点位t所在的格网;表示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;表示距离衰减系数;表示两条序列为点位t的格网距离,。
[0006]在此基础上,两条序列i和j之间的模糊相似度计算公式可表示为:式中,表示序列i和序列j之间的相似性,其上限为k;T表示两条序列的时间节点数;步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;
步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;步骤2.3.4 根据聚类规模下限参数s,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的日期类型特征,如工作日、周末、节假日等;步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:式中,表示聚类k中个体时空格网序列的鲁棒性,其上限为k,表示聚类k的时空格网序列集合,n表示聚类中各个时空格网序列的节点数量;优选地,所述步骤3包括:步骤3.1 针对不同活动空间的个体,生成大量随机样本;步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过空间格网的多边形包络体;步骤3.1.2 提取聚类中个体时空格网序列相邻节点在X轴和Y轴上的平移步长分布特征,将其拟合为正态分布形式,获取期望和方差;步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:式中,为个体时空活动的随机步长,服从正态分布,ρ为正态分布的方差,;步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间TH;步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤2.4,计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为;步骤3.2.2 根据步骤2.4,越高,个体时空格网序列的鲁棒性越高,则鲁棒性
的判定上限为k,下限为,表示若与k的距离小于与k的距离的1%,则说明个体的时空活动不是随时间随机变化的,具备鲁棒性;步骤3.3 根据鲁棒性校验区间,校验各个聚类的时空格网序列鲁棒性;步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断。
[0007]本专利技术基于移动终端大数据,通过对其进行处理和筛选,获取个体所持移动终端和传感器之间的通信记录,构建出个体出行的时空序列数据,通过插值构建等时间间隔的个体出行时空轨迹,并将其投射到二维格网上,建立个体时空格网序列数据;以此为基础,设计个体时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,包括以下步骤:步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,构建个体出行轨迹数据集,以T时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到M
×
N大小的二维空间格网中,建立个体时空格网序列;步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。2.如权利要求1所述的一种大数据环境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤1包括:步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,构建由个体和固定传感器通信记录构成的初步的个体出行数据;步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以T为时间间隔计算个体在各个时间点的X

Y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹;步骤1.3、以个体所在城市的空间范围为边界,生成一个M
×
N的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的X

Y编号替代个体时空活动轨迹中的X

Y坐标,建立个体的时空格网序列。3.如权利要求1所述的一种大数据境下个体时空活动鲁棒性的计算方法,其特征在于,所述步骤2包括:步骤2.1、以时间间隔IT为单位,将个体的时空格网序列截断为多条可比的序列;步骤2.2、基于等位节点比较的思想,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:式中,表示两条序列的等位点t的相似性,其上限为k;k表示两条序列的等位点所在空间位置完全一致情况下的权重;表示序列i在点位t所在的格网;表示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;表示距离
衰减系数;表示两条序列为点位t的格网距离,;在此基础上,两条序列i和j之间的模糊相似度计算公式可表示为:式中,表示序列i和序列j之间的相似性,其上限为k;T表示两条序列的时间节点数;步骤2.3 基于序列之间的模糊相似度计算方...

【专利技术属性】
技术研发人员:张颖顾高翔刘杰
申请(专利权)人:上海世脉信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1