一种顾及拓扑数据分析的时序多层地理流聚类识别方法技术

技术编号:35650169 阅读:33 留言:0更新日期:2022-11-19 16:45
本发明专利技术属于数据挖掘技术领域,具体涉及一种顾及拓扑数据分析的时序多层地理流聚类识别方法,包括如下步骤:S1、时序地理流构建;S2、地理流降维;S3、地理流聚类识别。本发明专利技术提出了一种顾及拓扑数据分析的时序多层地理流聚类识别方法,这种全新的地理时空分析方法可识别多层地理流聚类;为了将多层时序地理流进行聚类,发明专利技术人将拓扑数据分析的多透镜工具引入到方法持久性图中,计算每个持久性图之间的Wasserstein距离从而将不同时序的多层地理流进行聚类,生动地描绘了它们的动态相互作用,丰富对城市空间动态组织的研究;其实验结果可以为可持续城市管理提供决策支持。以为可持续城市管理提供决策支持。以为可持续城市管理提供决策支持。

【技术实现步骤摘要】
一种顾及拓扑数据分析的时序多层地理流聚类识别方法


[0001]本专利技术属于数据挖掘
,具体涉及一种顾及拓扑数据分析的时序多层地理流聚类识别方法。

技术介绍

[0002]目前大多数多层网络聚类方法都是基于通过图谱分解将图嵌入欧几里德空间,因此,没有明确考虑局部基础图几何和拓扑。
[0003]有鉴于此,本申请期望提出了一种顾及拓扑数据分析的时序多层地理流聚类识别方法,从一个全新的地理时空分析方法,可识别多层地理流聚类。

技术实现思路

[0004]本专利技术的目的在于克服传统技术中存在的上述问题,提供一种顾及拓扑数据分析的时序多层地理流聚类识别方法。
[0005]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:
[0006]一种顾及拓扑数据分析的时序多层地理流聚类识别方法,包括如下步骤:
[0007]S1、时序地理流构建
[0008]下载对象城市的轨迹数据,使用python中的TransBigData库将下载的轨迹数据转换为研究所需要的OD流数据,建立交通时序多层网,再使用ArcGIS创建格网对OD流进行分割,将OD点落在相同两个格网的流的数量作为格网之间的权重值,构建一个以格网为节点的地理流权重网络;
[0009]S2、地理流降维
[0010]使用网络嵌入中的deepwalk算法,将得到的地理流权重网络运用随机游走模型将不同时间段权重网络嵌入成点云数据,在此基础上,计算每一层网络节点的序列并从时间相关的多层网络中检测动态城市移动社区;
[0011]S3、地理流聚类识别
[0012]将得到的点云数据使用python中的gudhi包生成相应的持久性图,并计算每一层网络的Wasserstein距离,再使用此距离进行地理流聚类识别。
[0013]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤S1中,所述交通时序多层网的时间尺度为2小时。
[0014]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤S2中,deepwalk算法主要分为随机游走和生成表示向量两个部分;首先利用随机游走算法从图中提取一些顶点序列,然后借助自然语言处理的思路,将生成的定点序列看作由单词组成的句子,所有的序列可以看作一个大的语料库,最后利用自然语言处理工具word2vec将每一个顶点表示为一个维度为d的向量。
[0015]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤S2中,deepwalk算法具体包括以下步骤:
[0016]1)将ArcGIS创建的格网进行编号,把每一个格网看作是一个网络节点,生成随机游走序列的算法,其算法可以理解为输入起始点和路径长度,生成随机游走节点序列,再汇总邻接节点,从邻接节点中随机选择下一个节点;
[0017]2)将每个节点作为起始点生成随机游走序列,训练deepwalk算法中的word2vec模型将每一层网络嵌入成点云数据,再使用主成分分析进行降维可视化并保存嵌入生成的点云数据。
[0018]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤1)中随机游走具体算法如下:
[0019]设f(x)是一个含有n个变量的多元函数,x=(x1,x2,...,xn)为n维向量;
[0020]给定初始迭代点x,初次行走步长λ,控制精度∈;
[0021]给定迭代控制次数N,k为当前迭代次数;
[0022]当k<N时,随机生成一个(

1,1)之间的n维向量u=(u1,u2,

,un),(

1<ui<1,i=1,2,

,n),并将其标准化得到令x1=x+λu

,完成第一步游走;
[0023]计算函数值,如果f(x1)<f(x),即找到了一个比初始值好的点,那么k重新置为1,将x1变为x,回到第2步;否则k=k+1,回到第3步;
[0024]如果连续N次都找不到更优的值,则认为,最优解就在以当前最优解为中心,当前步长为半径的N维球内;此时,如果λ<∈,则结束算法;否则,令λ=λ2,回到第1步,开始新一轮游走。
[0025]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,∈是一个非常小的正数,用于控制结束算法。
[0026]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,在这个步骤中,将每一层网络嵌入得到的点云数据进行主成分分析可视化降维,探究不同时间段内它们表现出不同的发生、扩展、稳定、收缩和消失的生命历程。
[0027]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤2)中Skip

Gram模型的具体算法步骤如下:
[0028]首先选择点云网络中的一个点作为输入点;
[0029]有了输入点以后,在定义一个叫skip_window的参数,它代表着从当前输入点的一侧选取点的数量;定义另一个参数叫num_skips,它代表着从整个窗口中选取多少个不同的点作为输出点;
[0030]神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着词典中的每个点的输出可能性。
[0031]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,步骤S3中,聚类方法基本原理为:如果两个点的局部邻域在所有分辨率尺度上形状相似,则它们足够接近,可以分组为一个簇。
[0032]进一步地,上述顾及拓扑数据分析的时序多层地理流聚类识别方法中,为了比较簇的形状,执行以下步骤:
[0033]考虑某些度量空间(X,D)中的Xn=(x1,

,Xn);
[0034]设置分辨率阈值V1<V2…
<V
K
,并构造一个VR滤波
[0035]以持久图PD(i),i=1,

,n的形式计算xi的局部拓扑摘要;
[0036]对于xi的所有局部邻域N(i)和x
j
的N(j),i,j=1,2,

,N,计算成对拓扑或数据形状的相异性,作为其各自持久性图PD(i)与PD(j)之间的Wasserstein距离:
[0037][0038]式(1)中,Δ={(x,x)|x∈R},γ被双映射PD(i)∪Δ到PD(j)∪Δ中,Wasserstein距离允许系统地量化两个节点邻域的相似形状;
[0039]形成W2(N(i),N(j)),i,j=1,2,

,N上的距离图G,具有邻接矩阵a,其中
[0040][0041]通过肘部图或交叉验证定义切入点κ;
[0042]G的连通分量是得到的簇。
[0043]本专利技术的有益效果是:
[0044]本专利技术提出了一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种顾及拓扑数据分析的时序多层地理流聚类识别方法,其特征在于,包括如下步骤:S1、时序地理流构建下载对象城市的轨迹数据,使用python中的TransBigData库将下载的轨迹数据转换为研究所需要的OD流数据,建立交通时序多层网,再使用ArcGIS创建格网对OD流进行分割,将OD点落在相同两个格网的流的数量作为格网之间的权重值,构建一个以格网为节点的地理流权重网络;S2、地理流降维使用网络嵌入中的deepwalk算法,将得到的地理流权重网络运用随机游走模型将不同时间段权重网络嵌入成点云数据,在此基础上,计算每一层网络节点的序列并从时间相关的多层网络中检测动态城市移动社区;S3、地理流聚类识别将得到的点云数据使用python中的gudhi包生成相应的持久性图,并计算每一层网络的Wasserstein距离,再使用此距离进行地理流聚类识别。2.根据权利要求1所述的顾及拓扑数据分析的时序多层地理流聚类识别方法,其特征在于,步骤S1中,所述交通时序多层网的时间尺度为2小时。3.根据权利要求1所述的顾及拓扑数据分析的时序多层地理流聚类识别方法,其特征在于,步骤S2中,deepwalk算法主要分为随机游走和生成表示向量两个部分;首先利用随机游走算法从图中提取一些顶点序列,然后借助自然语言处理的思路,将生成的定点序列看作由单词组成的句子,所有的序列可以看作一个大的语料库,最后利用自然语言处理工具word2vec将每一个顶点表示为一个维度为d的向量。4.根据权利要求3所述的顾及拓扑数据分析的时序多层地理流聚类识别方法,其特征在于,步骤S2中,deepwalk算法具体包括以下步骤:1)将ArcGIS创建的格网进行编号,把每一个格网看作是一个网络节点,生成随机游走序列的算法,其算法可以理解为输入起始点和路径长度,生成随机游走节点序列,再汇总邻接节点,从邻接节点中随机选择下一个节点;2)将每个节点作为起始点生成随机游走序列,训练deepwalk算法中的word2vec模型将每一层网络嵌入成点云数据,再使用主成分分析进行降维可视化并保存嵌入生成的点云数据。5.根据权利要求4所述的顾及拓扑数据分析的时序多层地理流聚类识别方法,其特征在于,步骤1)中随机游走具体算法如下:设f(x)是一个含有n个变量的多元函数,x=(x1,x2,...,xn)为n维向量;给定初始迭代点x,初次行走步长λ,控制精度∈;给定迭代控制次数N,k为当前迭代次数;当k<N时,随机生成一个(

1,1)之间的n维向量u=(u1,u2,

,un),(

1<ui<1,i=1,2,

,n),并将其标准化得到令x1=x+λu

,完成第一步游走;计...

【专利技术属性】
技术研发人员:权利要求书二页说明书七页附图四页
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1