【技术实现步骤摘要】
一种多源异构POI数据快速去重方法
[0001]本专利技术涉及LBS位置服务
,具体涉及一种多源异构POI数据快速去重方法。
技术介绍
[0002]随着信息技术的不断发展,位置信息的来源更加广泛,数据更新更加频繁,合理使用位置信息对相关分析和决策具有重要意义,POI数据作为位置信息的重要载体,直接关系着位置信息的质量,是进行位置信息研究的重要参考依据,针对多源异构的POI数据,如何对其进行高效融合已然业界亟须解决的问题之一:
[0003]目前,POI数据融合的方法,主要包括基于空间位置、非空间属性、本体以及空间位置和非空间属性相结合的方法,其中,比较经典的POI融合算法主要有四种:基于片面最近邻连接算法的POI融合技术、基于加权的多属性相似度的POI融合方法、基于距离类别的POI融合技术和基于聚类和索引的POI融合技术;
[0004]基于片面最近邻连接算法的POI融合技术通过对象的空间位置来寻找正确的融合集,这种算法虽然操作简单,但由于只考虑了空间位置而没有考虑非空间属性,导致出现不准确的融合结果;
[0005]基于加权的多属性相似度的POI融合方法,该方法将名称相似度、距离相似度和地址相似度分别赋予不同的权重,通过计算总体相似度,并判断总体相似度是否大于某个阈值来判别两个POI是否为同一个,此方法理论简单,便于操作,但它面临着一个重要难题:如何确定不同属性的权重?人为确定权重,主观因素较强,会导致融合之后的数据结果准确性不高;
[0006]基于距离类别的POI融合方法,此方法主 ...
【技术保护点】
【技术特征摘要】
1.一种多源异构POI数据快速去重方法,其特征在于,包括数据预处理、栅格索引以及九宫格三大模块:其中数据预处理包括以下步骤:针对POI名称,对其进行分词、去除停用词,统计词频,得到词频向量,进而计算整个数据库中的词频,针对POI坐标,常用来源的POI坐标系有:GCJ02、WGS84、BD09,将其统一转换至GCJ02坐标系;所述栅格索引主要包括以下内容:栅格索引,为降低计算量,将地理坐标系分割为矩形栅格,建立栅格与POI坐标之间的反向索引,栅格索引为计算公式为栅格索引为计算公式为其中,lg
i
为POI中i的经度,lt
i
为POI中i的维度,px,py分别为东西方向和南北方向上的栅格线密度,最终,xn
i
,yn
i
为POI中i的栅格索引坐标,以及为向下取整函数。2.根据权利要求1所述的多源异构POI数据快速去重方法,其特征在于,所述九宫格模块包括有两个小模块,分别为九宫格内“同名”POI数据的去重、九宫格内“不同名”POI数据的去重以及POI数据合并三大操作步骤,其中的九宫格模块,包括以下内容:九宫格,也即选定中心栅格i(xn
i
,yn
i
),对于任意其他栅格j(xn
j
,yn
j
),若栅格i,j间的绝对值距离小于等于2,由中心栅格i和所有满足条件的所有栅格j,被称为一个“九宫格”,{i,j||xn
i
‑
xn
j
|+|yn
i
‑
yn
j
|≤2}一个“九宫格”包含以任意一格为中心,与其相邻的上、下、左、右、左上、左下、右上、右下的3
×
3九个栅格,若POI存在至少一个镜像POI,则该镜像POI的地理坐标与原始POI坐标距离一定小于栅格线密度,也即一定落在以原始POI为中心的“九宫格”内,故而一个九宫格是一个基本去重单元。3.根据权利要求2所述的多源异构POI数据快速去重方法,其特征在于,所述的九宫格内“同名”POI数据的去重主要包括以下内容:对于九宫格内“同名”且直线距离小于300m的POI,判定为同一个POI,并进行合并,即当两个POI数据的名称完全相同且距离足够近的时候,就能够认为这两个POI为同一个,名称完全相同的情况主要分为三种:第一种:两个POI名称均为中英文组合时,中文部分和英文部分分别对应相同;第二种:两个POI名称一个只有中文名,一个是中英文组合时,中文部分对应相同;第三种:两个POI名称中一个只有英文名,一个是中英文组合时,英文部分对应相同。4.根据权利要求2所述的多源异构POI数据快速去重方法,其特征在于,所述九宫格内“不同名”POI数据的去重则是对于不同名数据,主要采用编辑距离和分词后的低频词词频统计两种方...
【专利技术属性】
技术研发人员:林超,黄兴丽,姜辉,
申请(专利权)人:深圳数位大数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。