本发明专利技术公开了一种用于为关系型数据库RDB自动生成语义映射的方法和系统。该方法包括:获得从第一RDB到关联数据的本体的第一语义映射;获取从所述第一RDB到第二RDB的模式映射;根据所述第一语义映射以及所述模式映射,生成从所述第二RDB到所述关联数据的本体的第二语义映射。通过该方法和系统,可以有效地提高为关系型数据库生成语义映射的效率。
【技术实现步骤摘要】
本专利技术涉及数据处理,更具体地,涉及用于为关系型数据库自动生成语义映射的 方法和系统。
技术介绍
数据集成一直是企业数据管理中重要的课题之一,尤以关系型数据集成最为普 遍。经典的关系型数据集成需要设计一个全局的数据模式(schema),使得各个局部的关系 型数据库RDB(Relational Database)能映射到这个全局的数据模式上。然而,这样一个 全局的数据模式往往很难预先设计好,特别是当各个局部的关系型数据库有动态的增加或 删减时。因此,数据管理业界逐渐推崇无模式(schema-less)的数据集成方法,其中关联 数据(Linked Data)备受重视。关联数据采用资源描述框架RDF(Resource Description Framework)数据模型,利用统一资源标识符URI (Uniform Resource Identifier)命名数 据实体,来发布和部署实例数据和类数据,从而可以通过超文本传输协议HTTP (Hypertext Transfer Protocol)揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益 于人机理解的语境信息。 通过语义映射(semantic mapping)可以将关系型数据发布成关联数据,例如,常 用的语义映射工具有:D2RQ (http://www4. wiwiss. fu-berlin. de/bizer/d2rq/) > SquirrelRDF (http://jena. sourceforge. net/SquirrelRDF) >OpenLink Virtuoso (http://virtuoso, openlinksw. com/)等等。 关系型数据有模式,而模式由表(table)组成,表由列(column)组成。相应的,关 联数据有本体(ontology),而本体由类(class)和属性(property)组成。以D2RQ映射为 例,D2RQ提供了两种方式,其一是将关系型数据缺省地发布,这样产生的关联数据的本体是 由新定义的类名(即关系型数据库中的表名)和属性名(即关系型数据库中的列名)组 成;其二是给定关联数据的本体,将关系型数据指定地发布,使得关系型数据库中的表名和 列名与关联数据的本体中已经定义的类名和属性名能够映射起来。对于缺省定义的D2RQ 映射,其发布的关联数据常常繁琐而无意义,因此更多的时候是给定关联数据的本体,将关 系型数据指定地发布。当面对数百个甚至上千个的关系型数据库需要发布成关联数据时, 手工定义D2RQ映射无疑是耗时费力的。同样地,对于其他的语义映射工具也存在这样的问 题。
技术实现思路
针对上述问题,希望提供一种用于自动生成语义映射的解决方案。 根据本专利技术的一个方面,提供了一种用于为关系型数据库RDB自动生成语义映射 的方法。该方法包括:获取从第一 RDB到关联数据的本体的第一语义映射;获取从所述第一 RDB到第二RDB的模式映射;以及根据所述第一语义映射以及所述模式映射,生成从所述第 二RDB到所述关联数据的本体的第二语义映射。 根据本专利技术的另一个方面,提供了一种用于为关系型数据库RDB自动生成语义映 射的系统。该系统包括:语义映射获取模块,被配置为获取从第一 RDB到关联数据的本体的 第一语义映射;模式映射获取模块,被配置为获取从所述第一 RDB到第二RDB的模式映射; 以及语义映射生成模块,被配置为根据所述第一语义映射以及所述模式映射,生成从所述 第二RDB到所述关联数据的本体的第二语义映射。 通过本专利技术的实施例的方法和系统,可以有效的提高从关系型数据库生成语义映 射的效率。【附图说明】 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。 图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框 图。 图2显示了根据本专利技术的一个实施例的用于自动生成语义映射的方法的流程图。 图3显示了根据本专利技术的一个实施例的用于实现图2所示的步骤的进一步的流程 图。 图4显示了根据本专利技术的一个实施例的用于自动生成语义映射的系统的方框图。 图5a - 5c分别显示了根据本专利技术的一个实施例所获得的各个图结构表示的示意 图。【具体实施方式】 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。 图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框 图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本专利技术实施例的功能和使 用范围带来任何限制。 如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统 /服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举 例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。 计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动 的和不可移动的介质。 系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存 取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其 它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34 可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为"硬盘驱动器")。尽管 图1中未示出,可以提供用于对可移动非易失性磁盘(例如"软盘")读写的磁盘驱动器, 以及对可移动非易失性光盘(例如⑶-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。 在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28 可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模 块被配置以执行本专利技术各实施例的功能。 具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器 28中,这样的程序模块42包括--但不限于--操作系统、一个或者多个应用程序、其它 程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程 序模块42通常执行本专利技术所描述的实施例中的功能和/或方法。 计算机系统/服务器12也可以与一个或多个外部设备14 (例如键盘、指向设备、 显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交本文档来自技高网...
【技术保护点】
一种用于为关系型数据库RDB自动生成语义映射的方法,包括:获取从第一RDB到关联数据的本体的第一语义映射;获取从所述第一RDB到第二RDB的模式映射;以及根据所述第一语义映射以及所述模式映射,生成从所述第二RDB到所述关联数据的本体的第二语义映射。
【技术特征摘要】
【专利技术属性】
技术研发人员:梅婧,胡岗,孙文,沈炜嘉,谢国彤,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。