本发明专利技术涉及一种不同数据源的兴趣点的模糊匹配方法,包括以下步骤:1、分别从两个不同的网站中采集兴趣点数据构成数据集A、B;2、提取名称完全匹配的兴趣点配对形成数据样本,通过数据样本计算平均位置偏差并确定匹配范围;3、分别从数据集A、B中取待匹配点和待匹配集;4、对待匹配点和待匹配集中所有兴趣点的名称进行逐级地址分词,然后通过地址词典过滤名称中的地址信息;5、采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,通过匹配率判断兴趣点是否相同;6、同理,对数据集A中的其他兴趣点,在数据集B中找出与其匹配的兴趣点。该方法有利于精确匹配不同数据源的兴趣点数据,过滤重复的数据。
【技术实现步骤摘要】
本专利技术涉及字符串模糊匹配
,特别涉及一种不同数据源的兴趣点的模糊 匹配方法。
技术介绍
随着大数据时代的到来,智慧城市服务项目受到了许多国内外学者的关注。数以 百万的用户提供了大量的兴趣点数据及签到数据,这些数据为智慧城市服务项目提供了数 据源。但是不同源提供的兴趣点数据存在重复的可能,导致数据库存储时产生冗余,并且可 能影响计算结果的准确性。不同数据源的兴趣点数据的经炜度采用的是不同的标准,所以 很难通过兴趣点的经炜度直接对相同的兴趣点进行匹配,进而需要一种方法来匹配不同数 据源的兴趣点数据。
技术实现思路
本专利技术的目的在于提供,该方法有利于 精确匹配不同数据源的兴趣点数据,过滤重复的数据。 为实现上述目的,本专利技术的技术方案是:一种不同数据源的兴趣点的模糊匹配方 法,包括以下步骤: 步骤Sl :分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经 度、炜度信息,构成数据集A和数据集B ; 步骤S2 :从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数 据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离 和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定 匹配范围; 步骤S3 :取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离 d、平均偏差角度〇,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集; 步骤S4 :对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所 述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词 典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址 信息; 步骤S5 :基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个 兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣 点与待匹配点属于同一个兴趣点; 步骤S6 :对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹 配的兴趣点。 进一步的,所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离 d、偏差的角度为平均偏差角度〇的点为中心,以匹配半径r为半径的圆。 进一步的,步骤S2中,形成数据样本并确定平均位置偏差和匹配范围的方法为: 步骤S201 :找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合 {TS (ai,Id1),TS (a2, b2),…,TS (&1,Id1),…,TS (an,bn)},TS (&1,bj 表示第 i 个完全匹配对,即 数据集A的兴趣点&1与数据集B的兴趣点b i的名称完全匹配,i e {1,2,…,η},η为集合 长度; 步骤S202 :对每个完全匹配对TS (?, bj求&1与b i之间的偏差距离和偏差角度,得到与 数据样本集合对应的偏差距离集合W1, d2,…,山,…,dn}和偏差角度集合Io1, 〇2,…,Oi,… ,〇J,Cl1表示a 1与b i之间的偏差距离,〇 i表示a 1与b i之间的偏差角度;计算方法如下:上式中,IaUa1)、IatCb1)分别为兴趣点炜度,Ion (a J、IonCb1)分别为兴趣点 %、Id1的经度,R为地球半径;上式中,Rj为极半径; 步骤S203 :分别去除所述偏差距离集合和偏差角度集合的噪声点,得到去噪后的偏差 距离集合{dpIp e D}和去噪后的偏差角度集合{〇q I q e 〇},其中D为所述偏差距离集合中 非噪声点的下标的集合,〇为所述偏差角度集合中非噪声点的下标的集合,保留下标同时存 在于集合D和集合0中的偏差距离和偏差角度,形成处理后的偏差距离集合{(!,Ij e N}和 处理后的偏差角度集合IoiIj e N},其中N=D η 0,即为同时存在于集合D和集合0中的下 标集合; 步骤S204 :求取处理后的偏差距离集合的平均偏差距离d和处理后的偏差角度集合的 平均偏差角度〇,所述平均偏差距离d和平均偏差角度〇确定了匹配范围的中心,求取处理 后的偏差距离集合中两两距离差,最大的距离差r即为匹配范围的匹配半径,计算方法为:上式中,(IjG {d」I j e N},OjG {〇』I j e N},Ien(N)表示下标集合N的长度,X、y e N 且χ辛y〇 进一步的,在步骤S203中,采用3倍均方差法去除所述偏差距离集合和偏差角度 集合的噪声点,计算方法为:上式中,当BP1大于0时,则〇 所述偏差角度集合的噪声点,去除。 进一步的,步骤S4中,进行逐级地址分词的方法如下: 步骤S401 :地址分词字段包括省级字段Fl、市级字段F2、县区级字段F3、乡镇级字段 F3、社区级字段F4和路级字段F5 ; 令F2从属父级别Fl ;F3从属父级别Fl、F2 ;F4从属父级别Fl、F2、F3 ;F5从属父级别 F1、F2、F3、F4 ;F6从属父级别?1、?2、?3、?4冲5,从而建立地址分词字段之间的父子关系; 步骤S402 :对兴趣点的地址执行Fl级别的分词操作,分出省级的地址字段,然后依次 执行?243、?44546级别的分词操作,依次分出市级、县区级、乡镇级、社区级和路级的地 址字段,若某级别不存在,则继续进行下一级别的分词操作。 本专利技术的有益效果是将兴趣点的名称和地址相结合,提出了一种对不同数据源的 兴趣点数据进行模糊匹配的方法,该方法修正了位置偏差并去除了兴趣点名称中的地址干 扰,能够精确匹配不同数据源的兴趣点数据,过滤重复的兴趣点,具有很强的实用性和广阔 的应用前景。【附图说明】 图1是本专利技术实施例的实现流程图。 图2是本专利技术实施例中确定平均位置偏差和匹配范围的流程图。【具体实施方式】 下面结合附图及具体实施例对本专利技术作进一步的详细说明。 本专利技术将兴趣点地址和名称相结合,通过不同数据源的兴趣点名称和地址进行模 糊匹配。由于不同数据源的兴趣点位置偏差较大,进行大范围搜索耗时太多,所以需要缩小 匹配范围,进一步的,由于一些兴趣点名称包含地址信息,而一些兴趣点名称不包含地址信 息,使得匹配率较低,所以需要去除兴趣点名称中的地址干扰。本专利技术通过处理位置偏差和 地址干扰对不同数据源的兴趣点进行匹配。 本专利技术为,如图1所示,包括以下步骤: 步骤Sl :分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经 度、炜度等信息,构成数据集A和数据集B。 步骤S2 :从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计 算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差 距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并 确定匹配范围。所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离d、偏 差的角度为平均偏差角度〇的点为中心,以匹配半径r为半径的圆。如图2所示,形成数据 样本并确定平均位置偏差和匹配范围的具体方法为: 步骤S201 :找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合 {TS (ai,Id1),TS (a本文档来自技高网...
【技术保护点】
一种不同数据源的兴趣点的模糊匹配方法,其特征在于,包括以下步骤:步骤S1:分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经度、纬度信息,构成数据集A和数据集B;步骤S2:从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定匹配范围;步骤S3:取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离d、平均偏差角度o,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集;步骤S4:对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息;步骤S5:基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣点与待匹配点属于同一个兴趣点;步骤S6:对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹配的兴趣点。...
【技术特征摘要】
【专利技术属性】
技术研发人员:郭文忠,陈羽中,於志勇,赵水源,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。