表分类装置、表分类方法以及表分类程序制造方法及图纸

技术编号:3892902 阅读:254 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种表分类装置、表分类方法以及表分类程序,其目的在于,通过将数据库中的多个表分类为由类似的表构成的组,从而容易地合并数据库。表分类装置(1)具备:意义分类部(20),考虑构成数据库的列的意义来进行分类;以及统计分类部(30),根据列的统计性信息来进行分类。组合上述意义分类部(20)的分类方式和统计分类部(30)的分类方式来分级地分类表。

【技术实现步骤摘要】

本专利技术例如涉及对数据库所具有的多个表进行分类的技术。
技术介绍
在企业中混合存在各种数据库,数据库逐渐变得大规模化、复杂 化。在企业内或企业之间合并各种数据库时,为了实现数据的整合性, 需要合并表示相同内容的表或列。因此,首先,根据数据库、建模的 专业人员调查了数据库的说明书而得到的结果,或者属于各自組织中的专业人员的意见,制作类似的表(table)、歹U (column)、或冗余 的表、列的一览表。然后,根据所制作的一览表,合并数据库。近年来,作为数据库的合并,已开发出了支持模式匹配的工具。 该工具从整个公司的数据库中检索出类似名称的表、列来支持合并。在非专利文献1中,记栽有关于模式合并这样的观点下的合并方 法。在非专利文献l中示出了如下例子在对构成表的列类型进行分 类时,考虑列的类型、是否为关键字项等来比较列彼此。但是,在非 专利文献l中,虽然有关于比较列彼此的记载,但没有关于根据构成 表的列的类型等来比较表彼此的记载。非专利文献1: Rahm, E. and Bernstein, P.A.: A survey of approaches to automatic schema matching. VLDB J (10 ) pp.334 -350, 2001在企业内或企业之间的数据库的合并中,在大规模的情况下比 较达到数万个的列,从达到数百、数千个的表中,抽取由相同的列 构成的表、由类似的列构成的表。然后,需要进行如下等处理删 除由相同的列构成的表的一方,合并由类似的列构成的表。但是,即使得知了列彼此的类似性,也不容易根据列彼此的类5似性的信息来判断表彼此是否类似。例如,假设存在包括相同的列X 的表A和表B。在此存在如下情况在表A中列X是主键,而在表 B中列X是参照表A的外键。在该情况下,即使表A和表B中包含 有相同的列X,但表A与表B中的列X的意义(meaning)(作用) 不同。即,即使表A和表B中包含相同的列X,也不能说成是类似 的表,无法成为合并的对象。这样,仅通过简单地比较每个列的相 同性、类似性,无法判断作为表结构的相同性、类似性。
技术实现思路
本专利技术的目的在于,例如通过将数据库中的多个表分类为由类似 的表构成的组,从而使数据库的合并变得容易。本专利技术的表分类装置例如是将多个数据库所具有的多个表分类 为多个组的表分类装置,其特征在于,具备第一分类部,利用处理装置,根据包括上迷多个表的各表中的列 的位置的列信息来判定上述各表是否类似,根据判定的结果,将上述 多个表分类为多个组;第二分类部,利用处理装置,根据上述各表中的列的位置以外的列信息来判定上述各表是否类似,根据判定的结果,将上述多个表分 类为多个组;以及输出部,将由上述第一分类部和上述笫二分类部分类的结果输出 到输出装置。在本专利技术的表分类装置中,根据包括表中的列的位置的列信息来 判定表是否类似。根据表中的列的位置,能够判断该表中的列的作用。 因此,根据本专利技术的表分类装置,能够考虑表中的列的作用来判断表 的类似性,由此分类表。附图说明图l是示出表分类装置l的功能的功能框图。 图2是示出表列表11的图。图3是示出表列表11所具有的表节点111、列节点112的图。图4是示出列对应表14的图。图5是示出列列表12的图。图6是示出频繁出现列列表13的图。图7是示出意义分类部20的动作的流程图。图8是由意义分类部20分类表的说明图(1)。图9是由意义分类部20分类表的说明图(2)。图10是由意义分类部20分类表的说明图(3)。图11是由意义分类部20分类表的说明图(4)。图12是由意义分类部20分类表的说明图(5)。图13是示出表意义分类表21的图。图14是示出统计分类部30的动作的流程图。图15是示出由统计分类部30分类表的说明图(1)。图16是示出由统计分类部30分类表的说明图(2)。图17是示出由统计分类部30分类表的说明图(3)。图18是示出由统计分类部30分类表的说明图(4)。图19是示出由统计分类部30分类表的说明图(5)。图20是示出由统计分类部30分类表的说明图(6)。图21是示出由统计分类部30分类表的说明图(7)。图22是示出由统计分类部30分类表的说明图(8)。图23是示出由统计分类部30分类表的说明图(9)。图24是示出由统计分类部30分类表的说明图(10)。图25是示出由统计分类部30分类表的说明图(11)。图26是示出由统计分类部30分类表的说明图(12)。图27是示出实施方式2的统计分类部30的动作的流程图。图28是由实施方式2的统计分类部30分类表的说明图(1)。图29是由实施方式2的统计分类部30分类表的说明图(2)。图30是示出考虑了可否为NULL值的列列表12的图。图31是示出考虑了是否为关键字项的列列表12的图。图32是示出表分类装置1的硬件结构的一个例子的图。 符号说明1表分类装置 10列表制作部 11表列表 111表节点 112列节点 12列列表 121列号 122列类型 123大小 124 尺度125出现次数 13频繁出现列列表 131出现顺序 132列号 133出现次数 134出现率 14列对应表 141 DB类别 142固 有列类型 143共同列类型 20意义分类部 21表意义分类表 30统计分类部 31表分类列表 40输出部具体实施方式 实施方式l在本实施方式中,说明组合了如下两种分类方法的表的分类方 法(1)考虑表中的列的意义(作用)来判断表的类似性而分类表 的意义分类方法;(2)不考虑表中的列的意义而判断表的类似性来 分类表的统计分类方法。图l是示出表分类装置1的功能的功能框图。表分类装置l根据表所具有的列的类型、大小、精度(尺JL)的 类似度,将在企业内的各种数据库中所保存的多个表分类为多个组。表分类装置1具备列表制作部10、意义分类部20(第一分类部)、 统计分类部30 (第二分类部)、输出部40。列表制作部10导入成为输入的数椐库目录。列表制作部10将数 据库目录和列对应表14作为输入,利用处理装置生成表列表11、列 列表12和频繁出现列列表13而输出。意义分类部20利用意义分类方法对表进行分类。意义分类部20 将表列表11和列列表12作为输入,利用处理装置生成将表列表11 表示的多个表分类为多个组的表意义分类表21并输出。意义分类部20根据各表中的列的位置,判定该列在该表中的意 义。另外,意义分类部20判定具有规定意义的列在该表中为重要的 列。意义分类部20根据判定为重要的具有规定意义的列是否类似,来判定表是否类似。然后,意义分类部20按照判定结果生成将表分 类为多个组的表意义分类表21。在此,意义分类部20假设各表的开头附近的列是关键字项的可 能性高、且是重要的列。于是,意义分类部20根据开头附近的列是 否类似,来生成将表分类为多个组的表意义分类表21。统计分类部30按照统计分类方法对表进行分类。统计分类部30 将表意义分类表21和频繁出现列列表13作为输入,利用处理装置生 成将意义分类部20分类到同一组的表进一步详细地分类的表分类列 表31而输出。统计分类部30不考虑在表中其列的意义,而统计地判定重要的 列。统计分类部30通过统计地判定为重要的列是否共本文档来自技高网
...

【技术保护点】
一种表分类装置,将多个数据库所具有的多个表分类为多个组,其特征在于,具备: 第一分类部,利用处理装置,根据包括上述多个表的各表中的列的位置的列信息来判定上述各表是否类似,根据判定的结果,将上述多个表分类为多个组; 第二分类部,利 用处理装置,根据上述各表中的列的位置以外的列信息来判定上述各表是否类似,根据判定的结果,将上述多个表分类为多个组;以及 输出部,将由上述第一分类部和上述第二分类部分类的结果输出到输出装置。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:高山茂伸桐村绫子
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1