用于在第一表和第二表之间进行域匹配的方法和装置制造方法及图纸

技术编号：12619978 阅读：140 留言：0更新日期：2015-12-30 17:26

本发明专利技术涉及一种用于在第一表和第二表之间进行域匹配的方法和装置，该方法包括：基于第一表和第二表的域统计信息，确定第一表的候选关键域和第二表的候选关键域；分别计算第一表的每个候选关键域与第二表的每个候选关键域的相似度，以获得匹配的一个或多个关键域对；及基于匹配的一个或多个关键域对，计算除了一个或多个关键域对之外的、第一表的每个剩余域与第二表的每个剩余域的相似度，以获得匹配的一个或多个剩余域对。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于在第一表和第二表之间进行域匹配的方法和装置。
技术介绍
随着网络应用的普及，网络上会出现很多同质的数据信息，但是数据结构的表示却不一致。例如一些用户数据会保存在Excel中，但是随着数据数量的增多，数据参数的个数有所增加，因此另外一些用户数据会保存在数据库中。为了获得一个全局统一的数据视图，有必要找出这些数据源之间的对应关系。大多数的数据匹配只是基于数据域的元信息，例如域名称的相似度和域类型的相似度等。但是在有些情况下，域名称可能会有很大的不同。例如，在Excel的一个表中可能用"corporate"这个表头来代表公司名称，而在数据库的另一个表中则用"enterprise"代表公司名称。在这种情况下，使用传统技术在这两个表之间进行域匹配的结果就不理想。针对现有技术中存在的缺陷，提出本申请。
技术实现思路
在下文中给出关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于提供一种用于在第一表和第二表之间进行域匹配的方法和装置，以至少克服现有的问题。根据本专利技术的一个方面，提供了一种用于在第一表和第二表之间进行域匹配的方法，包括：基于第一表和第二表的域统计信息，确定第一表的候选关键域和第二表的候选关键域；分别计算第一表的每个候选关键域与第二表的每个候选关键域...

【技术保护点】
一种用于在第一表和第二表之间进行域匹配的方法，包括：基于所述第一表和所述第二表的域统计信息，确定所述第一表的候选关键域和所述第二表的候选关键域；分别计算所述第一表的每个候选关键域与所述第二表的每个候选关键域的相似度，以获得匹配的一个或多个关键域对；及基于所述匹配的一个或多个关键域对，计算除了所述一个或多个关键域对之外的、所述第一表的每个剩余域与所述第二表的每个剩余域的相似度，以获得匹配的一个或多个剩余域对。

【技术特征摘要】

【专利技术属性】
技术研发人员：皮冰锋，邹纲，张军，钟朝亮，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人