一种不同数据源的兴趣点的模糊匹配方法组成比例

技术编号：12308449 阅读：146 留言：0更新日期：2015-11-11 17:33

本发明专利技术涉及一种不同数据源的兴趣点的模糊匹配方法，包括以下步骤：1、分别从两个不同的网站中采集兴趣点数据构成数据集A、B；2、提取名称完全匹配的兴趣点配对形成数据样本，通过数据样本计算平均位置偏差并确定匹配范围；3、分别从数据集A、B中取待匹配点和待匹配集；4、对待匹配点和待匹配集中所有兴趣点的名称进行逐级地址分词，然后通过地址词典过滤名称中的地址信息；5、采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配，通过匹配率判断兴趣点是否相同；6、同理，对数据集A中的其他兴趣点，在数据集B中找出与其匹配的兴趣点。该方法有利于精确匹配不同数据源的兴趣点数据，过滤重复的数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及字符串模糊匹配
，特别涉及一种不同数据源的兴趣点的模糊匹配方法。
技术介绍
随着大数据时代的到来，智慧城市服务项目受到了许多国内外学者的关注。数以百万的用户提供了大量的兴趣点数据及签到数据，这些数据为智慧城市服务项目提供了数据源。但是不同源提供的兴趣点数据存在重复的可能，导致数据库存储时产生冗余，并且可能影响计算结果的准确性。不同数据源的兴趣点数据的经炜度采用的是不同的标准，所以很难通过兴趣点的经炜度直接对相同的兴趣点进行匹配，进而需要一种方法来匹配不同数据源的兴趣点数据。
技术实现思路
本专利技术的目的在于提供，该方法有利于精确匹配不同数据源的兴趣点数据，过滤重复的数据。为实现上述目的，本专利技术的技术方案是：一种不同数据源的兴趣点的模糊匹配方法，包括以下步骤：步骤Sl :分别从两个不同的网站中采集兴趣点数据，其中包括兴趣点的名称、地址、经度、炜度信息，构成数据集A和数据集B ; 步骤S2 :从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本，计算数据样本中所有配对的兴趣点之间的位置偏差，所述位置偏差包括两兴趣点之间的偏差距离和偏差角度；去噪处理后，计算平均位置偏差，包括平均偏差距离和平均偏差角度，并确定匹配范围；步骤S3 :取数据集A中的一个兴趣点作为待匹配点，根据步骤S2获得的平均偏差距离 d、平均偏差角度〇,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集；步骤S4 :对地址分词字段建立逐级的父子关系，并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地...

【技术保护点】
一种不同数据源的兴趣点的模糊匹配方法，其特征在于，包括以下步骤：步骤S1：分别从两个不同的网站中采集兴趣点数据，其中包括兴趣点的名称、地址、经度、纬度信息，构成数据集A和数据集B；步骤S2：从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本，计算数据样本中所有配对的兴趣点之间的位置偏差，所述位置偏差包括两兴趣点之间的偏差距离和偏差角度；去噪处理后，计算平均位置偏差，包括平均偏差距离和平均偏差角度，并确定匹配范围；步骤S3：取数据集A中的一个兴趣点作为待匹配点，根据步骤S2获得的平均偏差距离d、平均偏差角度o，找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集；步骤S4：对地址分词字段建立逐级的父子关系，并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词，并采用地址分词得到的地址字段形成临时的地址词典，然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息；步骤S5：基于已过滤掉地址信息的名称，采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配，当某个兴趣点使匹配率最大且所述匹配率大于设定值时，则判定该兴趣点与待匹配点属于同一个...

【技术特征摘要】

【专利技术属性】
技术研发人员：郭文忠，陈羽中，於志勇，赵水源，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人