用于关系数据库系统中基于本体的语义匹配的系统技术方案

技术编号:2838189 阅读:252 留言:0更新日期:2012-04-11 18:40
用于处理关系数据库中数据的方法,其中:规定OWL文件中表达的词和所述词对之间的关系的本体数据存于数据库中,形成包含语义匹配算子的数据库查询,这些查询识别本体数据并进而规定两个输入词之间的陈述关系,该查询被执行以调用语义匹配算子来通过参考所述本体数据确定这两个输入词是否以陈述关系相关联。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及在关系数据库管理系统(RDBMS)中存储和处理本体数据的方法和装置。
技术介绍
单个词在不同的语境中通常具有不同的含义词“老鼠”在一种语境中可能指一种动物而在另一种语境种可能指计算机输入设备。不同的词可能表示同一个物,如词“TV”和“television”。并且词可能以特别的方式相互关联;例如,“狮子狗”总是“狗”,但“狗”不总是“狮子狗”。人类通过理解词被使用的语境来学会如何应付语言的含糊性。计算机可通过参考表示词和它们相互关系的名为“本体”的数据结构被编程来做同样的事情。数据处理操作通常需要将一个词与另一个词匹配。因为单个词在不同语境中会有不同的意思,并且不同的词可指同一个物,简单地检验两个值是否相等经常是不够的。例如,假设有一个基于自己偏爱来向用户推荐餐馆的计算机餐馆指南应用程序。这样的应用可能使用名为“served_food”的通过一列中它的ID号“R_id”和它在名为“菜式(Cuisine)”的另一列中提供的事物种类来识别各个餐馆的数据库表。在没有词义匹配的情况下,如果用户希望识别提供Latin American的餐馆,传统的数据库应用程序很可能使用如下的SQLSELECT语句来采取词义匹配。SELECT*FROM served_food WHERE cuisine=’Latin American’; 但这个查询将不识别以提供“Mexican”“Spanish”或“Portuguese”菜服务列出的餐馆,因为这些词中没有一个全等地匹配查询中的词“Latin American”。更有意义的结果可通过考虑词义的语义匹配来获得。为此,匹配过程可能参考如图1所示的本体,该本体显示词“LatinAmerican”包含由词“Mexican”、“Spanish”和“Portuguese”确指的更具体的菜式类型。等同性操作通常被用于只允许基于数据类型的结构匹配而不考虑适合具体领域的语义的传统数据库系统中。语义可由一个或多个与该语义域相关联的本体来确定。近年来,处理本体的方法已在语义网的环境中获得了广泛的关注。例如T.Berners-Lee、J.Hendler和O.Lassila的“The Semantic Web”in Scientific American,May,2001。用于构建和使用本体的工具已可供使用,其中包括例如(1)A.Das,W.Wu,和D.McGuinness在他们的文章″Industrial Strength OntologyManagement,″(The Emerging Semantic Web,105 Press,2002)中描述的来自VerticalNet网的本体构建器(OntologyBuilder)和本体服务器(OntologyServer);以及(2)B.Motik,A.Maedche,和R.Volz在他们的文章″A Conceptual Modeling Approach for Semantics-DrivenEnterprise Applications,″(Proceedings of the 2002 Confederated lilt.Conferences DOA/CoopIS/ODBASE,2002)中描述的KAON。这些工具可让本体存入关系数据库,并提供过程API(应用程序接口)来访问和操作本体。然而,为了将基于本体的语义匹配结合到应用程序中,用户需要利用提供的API来首先查询本体,然后将从API得到的结果与在数据库表上的查询相结合,这对用户来说是个繁重的过程并且需要附加的处理。本体的形式表示有助于通过将关于目标域的知识从其他应用代码中分离出来以构建应用程序。该分离充分简化了应用代码,使得在多个应用中共享由本体表示的知识变得容易,并且允许知识可无需符合应用的若干改变地被扩展和纠正。广泛使用的关系数据库系统必须利用本体来提供改良的结果。然而,为达到这个目标,RDBMS现有的性能必须被扩展以支持RDBMS中基于本体的语义匹配,并且这些增强的性能应能以与数据库用户已熟悉的现行用法相一致的方式被使用。
技术实现思路
本专利技术的优选实施例通过引入一组新的SQL算子扩展了现有关系数据库管理系统的性能,本文中称该组算子为ONT_RELATED、ONT_EXPAND、ONT_DISTANCE、和ONT_PATH,它们用来执行基于本体的语义匹配。这些算子允许数据库用户直接用SQL语句来确定本体数据的来源,可将这些语义匹配算子与其他传统SQL操作如关连(joins)结合,以在执行基于语义的匹配时利用SQL的完全表达能力。本专利技术构思的语义匹配算子产生新的、有效的基于本体的易于开发的应用程序,并且能够容易地增强现有RDBMS应用程序以获得语义匹配的益处。ONT_RELATED算子执行基于本体的语义匹配,并用如下表达形式在SQL语句内表达“ONT_RELATED(term1,reltype,term2,ontology).” 当被执行时,ONT_RELATED算子通过参考本体来确定两个输入词(词1和词2)是否由规定的输入关系类型“reltype”相关。在执行包含语义匹配算子的查询之前,规定的本体被登录到数据库,并映射到系统定义表中。两个辅助算子,ONT_DISTANCE和ONT_PATH,被用来确定用于被识别的匹配行的附加量度,即分别为最短距离和最短路径。这些算子在规定本体中识别最接近匹配的词。两个名为ONT_DISTANCE和ONT_PATH的辅助算子分别返回用于所有在本体中被识别的匹配词的距离量度和路径。以ONT_EXPAND(term1,reltype,term2,ontology)形式表达的名为ONT_EXPAND的算子被用于直接访问本体数据。该算子基于规定本体的规定关系(reltype)计算(term1,term2)的传递闭包。该term1、reltype和term2可具有具体的输入值或NULL值。NULL意为所有可能的值。例如,ONT_EXPAND(NULL,‘IS_A’,‘Vehicle’)将产生所有通过‘IS_A’关系与词‘Vehicle’相关的词。附图说明 在下面的详细说明中将频繁参照附图,其中 图1作为示例描述用于描述餐馆提供的食物的词之间的层次关系的本体; 图2是说明用于实现本专利技术具体实施例的原理性数据结构的方块图; 图3是说明增加了EQV关系的图;以及 图4是说明用索引法加速词匹配操作的方式的图。具体实施例方式1.导言 本专利技术使用一组SQL(结构化查询语言)算子以在存入关系数据库管理系统(RDBMS)的数据上执行基于本体的语义匹配。这些SQL算子最好采用数据库使用的现有SQL语法的扩展形式,并可用通常健壮数据库系统中一般可用的数据库可扩展性能(即定义用户定义的算子、用户定义的索引方案和表函数的能力)。下面描述的本专利技术的具体实施例已在用于Oracle数据库族中的现有SQL语法之上实现。关于Oracle SQL语言及其语法的详细信息可在从Oracle公司得到的Oracle8I SQL参考资料中找到。该参考资料包括对用于Oracle数据库中信息管理的结构化查询语言(SQL)的完整描述。OracleSQL是美国国家标准化本文档来自技高网
...

【技术保护点】
处理存于关系数据库的数据的方法,其中以组合方式包括如下步骤:    存储本体数据,该数据规定词和所述词的词对之间的关系;    形成包含语义匹配算子的数据库查询,该查询识别所述本体数据并进而规定两个输入词之间的陈述关系;以及    执行所述查询,以调用所述语义匹配算子来通过参考所述本体数据确定所述两个输入词是否通过陈述关系相关联。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:S达斯EI崇G伊顿J斯里尼瓦桑
申请(专利权)人:甲骨文国际有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1