一种城市路网车辆出行轨迹的检索方法及系统技术方案

技术编号:30094492 阅读:19 留言:0更新日期:2021-09-18 08:57
本发明专利技术公开了一种城市路网车辆出行轨迹的检索方法及系统,方法包括:获取城市路网车辆出行轨迹数据,构建时空数据集;根据时空数据集,构建并存储Hilbert

【技术实现步骤摘要】
一种城市路网车辆出行轨迹的检索方法及系统


[0001]本专利技术涉及大数据管理
,特别是涉及一种城市路网车辆出行轨迹的检索方法及系统。

技术介绍

[0002]城市路网车辆出行轨迹数据是一种多维度数据,且数据量庞大,在轨迹数据的检索过程中,HBase数据库仅凭RowKey设计原则难以维持车辆轨迹数据检索的要求,存在数据存储分布不均、检索效率低的问题。对此,现有技术提出了以下几种方案:(1)将网络对象空间关系和Hilbert(希尔伯特)分层代码合并到多层网络,这种方法提高了空间检索效率,但是需预设空间范围,这会导致索引结构的不平衡,并且这种方法的检索对象仅适用于点对象。(2)利用Z曲线对数据进行聚类,然后基于聚类结果,将HBase数据库用作时空关联算法的整体检索结构。这种方法具有高实时性和高动态性,但索引效率低。(3)基于四叉树和3DR树构建双层结构的分布式时空索引,能持久化支持磁盘子树动态加载进而提高查询效率,但存储成本高。
[0003]因此,目前亟需一种存储分布均匀、检索效率高且存储成本低的数据检索技术。

技术实现思路

[0004]本专利技术的目的是提供一种城市路网车辆出行轨迹的检索方法及系统,具有存储分布均匀、检索效率高且存储成本低的优点。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种城市路网车辆出行轨迹的检索方法,包括:
[0007]获取城市路网车辆出行轨迹数据,构建时空数据集;
[0008]根据所述时空数据集,构建并存储Hilbert

DR树;
[0009]输入检索条件,根据所述检索条件,遍历所述Hilbert

DR树,确定与所述检索条件对应的城市路网车辆出行轨迹数据集。
[0010]可选的,所述根据所述时空数据集,构建并存储Hilbert

DR树,具体包括:
[0011]按照时间段对所述时空数据集进行分片,得到多个分片数据集;
[0012]令i的数值为1;
[0013]分别将多个所述分片数据集作为多个第i级中间节点的对应簇集;
[0014]对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集;
[0015]分别判断每个第i级中间节点的每个包含簇集是否满足叶子节点生成条件;所述叶子节点生成条件为所述包含簇集内的数据个数小于节点容量阈值;
[0016]将满足叶子节点生成条件的包含簇集作为满足叶子节点生成条件的所述包含簇集所在的第i级中间节点的叶子节点;
[0017]将不满足叶子节点生成条件的包含簇集作为不满足叶子节点生成条件的所述包
含簇集所在的第i级中间节点下的第i+1级中间节点的对应簇集;
[0018]令i的数值增加1,返回步骤“对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集”,直到每个包含簇集均满足叶子节点生成条件,得到Hilbert

DR树。
[0019]可选的,在按照时间段对所述时空数据集进行分片,得到多个分片数据集之后,还包括:
[0020]对各所述分片数据集内的数据均进行Hilbert编码,得到多个编码后的分片数据集。
[0021]可选的,所述对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集,具体包括:
[0022]确定第n个第i级间节点的对应簇集的多个聚类中心;n=1,2,...,N;N为编码后的分片数据集的数量;
[0023]计算所述第n个第i级间节点的对应簇集内的数据分别与每个聚类中心的欧式距离;
[0024]根据所述欧式距离,将所述第n个所述第i级间节点的对应簇集内的数据分配到与最小欧式距离对应聚类中心对应的簇;
[0025]计算数据分配后每个簇的聚类中心改变量;
[0026]更新聚类中心改变量大于或者等于改变量阈值的簇的聚类中心,并返回步骤“计算所述第n个编码后的分片数据集内的数据分别与每个聚类中心的欧式距离”,直至所有所述聚类中心改变量均小于改变量阈值,得到多个包含簇集。
[0027]可选的,所述欧式距离的计算公式为:
[0028][0029]式中,为第i个样本点t
i
到第j个聚类中心o
j
的欧式距离,t
i
为第i个样本点,o
j
为第j个聚类中心,m为样本点特征向量的维度,t
iz
为第i个样本点特征向量的第z个维度,o
jz
为第j个聚类中心特征向量的第z个维度。
[0030]可选的,所述聚类中心改变量的计算公式为:
[0031][0032]式中,ω
c
为第c次迭代的聚类中心改变量,T
c,i
为第c次迭代时的第i个簇,T
c

1,i
为第c

1次迭代时的第i个簇,|T
i
|为第i个簇中的数据个数,t
j
为第j个样本点。
[0033]一种城市路网车辆出行轨迹的检索系统,包括:
[0034]时空数据集构建模块,用于获取城市路网车辆出行轨迹数据,构建时空数据集;
[0035]Hilbert

DR树构建模块,用于根据所述时空数据集,构建并存储Hilbert

DR树;
[0036]检索模块,用于输入检索条件,根据所述检索条件,遍历所述Hilbert

DR树,确定与所述检索条件对应的城市路网车辆出行轨迹数据集。
[0037]可选的,所述Hilbert

DR树构建模块,具体包括:
[0038]分片数据集确定单元,用于按照时间段对所述时空数据集进行分片,得到多个分片数据集;
[0039]赋值单元,用于令i的数值为1;
[0040]对应簇集确定单元,用于分别将多个所述分片数据集作为多个第i级中间节点的对应簇集;
[0041]包含簇集确定单元,用于对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集;
[0042]第一判断单元,用于分别判断每个第i级中间节点的每个包含簇集是否满足叶子节点生成条件;所述叶子节点生成条件为所述包含簇集内的数据个数小于节点容量阈值;
[0043]叶子节点生成单元,用于将满足叶子节点生成条件的包含簇集作为满足叶子节点生成条件的所述包含簇集所在的第i级中间节点的叶子节点;
[0044]中间节点生成单元,用于将不满足叶子节点生成条件的包含簇集作为不满足叶子节点生成条件的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种城市路网车辆出行轨迹的检索方法,其特征在于,所述方法,包括:获取城市路网车辆出行轨迹数据,构建时空数据集;根据所述时空数据集,构建并存储Hilbert

DR树;输入检索条件,根据所述检索条件,遍历所述Hilbert

DR树,确定与所述检索条件对应的城市路网车辆出行轨迹数据集。2.根据权利要求1所述的城市路网车辆出行轨迹的检索方法,其特征在于,所述根据所述时空数据集,构建并存储Hilbert

DR树,具体包括:按照时间段对所述时空数据集进行分片,得到多个分片数据集;令i的数值为1;分别将多个所述分片数据集作为多个第i级中间节点的对应簇集;对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集;分别判断每个第i级中间节点的每个包含簇集是否满足叶子节点生成条件;所述叶子节点生成条件为所述包含簇集内的数据个数小于节点容量阈值;将满足叶子节点生成条件的包含簇集作为满足叶子节点生成条件的所述包含簇集所在的第i级中间节点的叶子节点;将不满足叶子节点生成条件的包含簇集作为不满足叶子节点生成条件的所述包含簇集所在的第i级中间节点下的第i+1级中间节点的对应簇集;令i的数值增加1,返回步骤“对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集”,直到每个包含簇集均满足叶子节点生成条件,得到Hilbert

DR树。3.根据权利要求2所述的城市路网车辆出行轨迹的检索方法,其特征在于,在按照时间段对所述时空数据集进行分片,得到多个分片数据集之后,还包括:对各所述分片数据集内的数据均进行Hilbert编码,得到多个编码后的分片数据集。4.根据权利要求2所述的城市路网车辆出行轨迹的检索方法,其特征在于,所述对每个所述第i级间节点的对应簇集采用k

means聚类算法进行聚类处理,获得每个第i级中间节点的多个包含簇集,具体包括:确定第n个第i级间节点的对应簇集的多个聚类中心;n=1,2,...,N;N为编码后的分片数据集的数量;计算所述第n个第i级间节点的对应簇集内的数据分别与每个聚类中心的欧式距离;根据所述欧式距离,将所述第n个所述第i级间节点的对应簇集内的数据分配到与最小欧式距离对应聚类中心对应的簇;计算数据分配后每个簇的聚类中心改变量;更新聚类中心改变量大于或者等于改变量阈值的簇的聚类中心,并返回步骤“计算所述第n个编码后的分片数据集内的数据分别与每个聚类中心的欧式距离”,直至所有所述聚类中心改变量均小于改变量阈值,得到多个包含簇集。5.根据权利要求4所述的城市路网车辆出行轨迹的检索方法,其特征在于,所述欧式距离的计算公式为:
式中,为第i个样本点t
i
到第j个聚类中心o
j
的欧式距离,t
i
为第i个样本点,o
j
为第j个聚类中心,m为样本点特征向量的维度,t
iz
为第i个样本点特征向量的第z个维度,o
jz
为第j个聚类中心特征向量的第z个维度。6.根据权利要求4所述的城市路网车辆出行轨迹的检索方法,其特征在于,所述聚类中心改变量的计算公式为:式中,ω
c
为第c次迭代的聚类中心改变...

【专利技术属性】
技术研发人员:李松江赵健宏杨迪王鹏任志鹏宋小龙
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1