一种基于机器学习的空间数据匹配方法组成比例

技术编号：9794613 阅读：213 留言：0更新日期：2014-03-21 19:27

本发明专利技术涉及一种基于机器学习的空间数据匹配方法，包括四个步骤：1）自动生成匹配训练样本，2）通过机器学习建立分类器模型及其参数，3）应用分类器模型对输入空间数据进行目标匹配，4）顾及逻辑和领域约束对匹配结果的过滤和改善。其中机器学习采用以空间目标的位置、大小、形状和方位等多种指标作为特征提取。具有如下优点：可避免量纲标准化和多指标加权中的主观任意性，匹配精度较加权平均方法更高；匹配模型基于样本数据学习建立，数据的自适应性较高；建立模型的典型样本数量少，可大规模应用；利用空间数据的内在几何信息，无需额外属性信息，使用准入性低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的空间数据匹配方法
本专利技术属于地理信息处理
，特别是涉及一种基于机器学习的空间数据匹配方法。
技术介绍
空间数据集成融合是目前地理信息应用的一项触发技术，在整个地理信息处理、加工、分析、挖掘中处于核心地位，其中的关键技术问题在于多源空间数据的目标匹配。目标匹配的常见应用包括：空间数据增量式更新、多重表达数据库、多尺度空间分析、跨数据库一致性维护、VGI数据质量评价、跨数据库属性传输与数据增强等。然而，由于空间数据采集的数学基础、精度、建库目的以及对数据细节的概括化简程度等不同，多源空间数据在目标级别上进行匹配十分困难，具有较大不确定性。现有的数据匹配方法有两个层次，第一个层次是从空间参考系上对空间数据进行统一，比如通过重新投影或者进行基准面的转换，如使用Helmert七参数，或Molodensky-Badekas十参数变换等，来对空间数据的数学基础进行统一，可认为是对空间数据的整体配准、定位。然而，该层次的配准较为粗糙，并不能完全解决上述目标级别的匹配问题：在空间数据的数学基础统一后仍然存在大量目标级别的空间位移，不能简单通过位置关系进行匹配，对空间数据的集成融合带来极大困难。第二个层次的匹配是直接操作空间目标，通过除位置信息外的其他信息对不同数据源的目标间的相似性进行评估，从而得到目标匹配结果。这类目标匹配方法所使用的相似性指标主要分为空间几何（包括位置、角度、形状、拓扑等）、语义和上下文关系指标。基于语义的匹配方法依赖空间数据库的属性信息，而当前大多数测绘数据，无论是官方、商业或众包地理数据（如OpenStreetMap等），...
一种基于机器学习的空间数据匹配方法

【技术保护点】
一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作：目标集合D={di}，0≤i≤n,和集合G={gj}，0≤j≤m；这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积：rij=∈D×G，具体包括以下步骤：步骤1，根据输入数据生成训练样本数据：即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库：并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本模式TP={(f1,c1),...,(fn,cn)}，其中fi(1≤i≤n)为样本集合中第i个样本的特征向量，ci为该样本的分类类别，取值为匹配或不匹配；ci取值为匹配的类别定义为正样本TP+；ci取值为不匹配的类别定义为负样本TP?；步骤2，基于机器学习建立匹配模型：即针对步骤1中简历的训练样本模式TP进行机器学习，来建立一个分类器函数g:D×G→C；其中，C={匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；步骤3，将两个待匹配的两个空间数...

【技术特征摘要】
1.一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作：目标集合D＝{di}，0≤i≤n,和集合G＝{gj}，0≤j≤m；这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积：rij＝<di,gj>∈D×G，具体包括以下步骤：步骤1，根据输入数据生成训练样本数据：即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库：并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本集TP＝{(f1,c1),...,(fn,cn)}，其中fi(1≤i≤n)为样本集合中第i个样本的特征向量，ci为该样本的分类类别，取值为匹配或不匹配；ci取值为匹配的类别定义为正样本TP+；ci取值为不匹配的类别定义为负样本TP-；步骤1包括以下子步骤：步骤1.1，建立正确匹配目标对数据库：在待匹配的两个数据集中通过样本匹配模块进行初步匹配，并从中选取无二义性的匹配对来建立正样本库：TP+＝{(fk,ck)|ck＝匹配}，其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示；具体是通过计算di和gj之间的位置LocSim和大小SizeSim相似性来建立正样本库；具体的，每个匹配目标di有多个候选匹配目标gj，对于每对目标<di,gj>，计算LocSim(di,gj)*|1-SizeSim(di,gj)|,选择计算结果最小的<di,gj>，认为其相似度最高，并记录在正样本库TP+中；步骤1.2，建立错误匹配目标对数据库：除了步骤1.1中的正样本TP+，还必须建立负样本TP-＝{(fk,ck)|ck＝不匹配},负样本集由落入当前匹配目标gj一定范围内的非正样本构成：其中dT为距离阈值，大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差；步骤1.3，导出训练样本集TP：定义fk为目标对的相似性指标向量，包括目标间的距离、大小、形状、方位的相似性；分别对正负样本中每一对目标关系rij，计算di和gj的多种相似性，得出关于rij的特征向量fk，最终合并导出为训练样本集TP；步骤2，基于机器学习建立匹配模型：即针对步骤1中建立的训练样本集TP进行机器学习，来建立一个分类器函数g:D×G→C；其中，C＝{匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；步骤3，将两个待匹配的两个空间数据集中的目标两两进行任意组合，形成目标对<di,gj>的集合，然后计算每对目标的特征向量，并输入已建立的分类器模型，通过分类器算法计算得到初步匹配结果；步骤4，根据逻辑约束条件，对步骤3中的初步匹配结果进行过滤与改善后结束；所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果，其规则为：合理的多对多匹配形式为m:n，其中m为多对多匹配中包含的di的数目，n为gj的数目，条件m≠n必须满足；若出现了多对多的匹配关系，而m和n是相等的，即判定为违反了逻辑约束...

【专利技术属性】
技术研发人员：张翔，艾廷华，赵羲，杨敏，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人