一种领域本体构建方法及系统技术方案

技术编号:8959414 阅读:208 留言:0更新日期:2013-07-25 18:58
本发明专利技术公开一种领域本体构建方法,包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;本发明专利技术还提供一种领域本体构建系统。根据本发明专利技术的技术方案,提供一种面向本体检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。

【技术实现步骤摘要】
一种领域本体构建方法及系统
本专利技术涉及信息系统建模和知识工程领域,尤其涉及一种基于本体复用的领域本体构建方法及系统。
技术介绍
汤姆·格鲁伯(TomGruber)将本体(Ontology)定义为一种为共享而构建的概念化的显式规范。概念化是指为一个领域或范围内的抽象概念、具体对象、对象属性及对象间关系建立的模型,而本体是将一个概念化显式地表示成为规范,以便多个主体共享。在本体中,上述概念、关系等统称为术语(Term);本体可以视作由称作公理(Axiom)的术语描述组成的集合。尼古拉·高利诺(NicolaGuarino)将本体分为顶层本体、领域本体、任务本体、应用本体。其中,顶层本体描述通用的概念(如空间、时间),领域和任务本体分别描述一般的领域(如单反相机)和一般的任务(如相机销售),而应用本体则描述具体应用涉及的具体范围(如一个具体的单反相机销售网站)。其中,顶层本体通常比较稳定,应用本体的共享意义较小,因此,领域和任务本体的构建最为活跃,其构建方法最为重要。现有的构建领域本体的方法可以分为两类:手工构建和半自动构建。手工构建以本体描述捕获方法(IDEF5,IntegratedDefinitionforOntologyDescriptionCaptureMethod)为代表,将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤,每一步都由人手工完成。半自动构建又称本体学习,由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语,形成初步的本体,再经过人手工精化和验证。然而,目前计算机程序自动构建的初步本体在质量上通常很差,并不能有效降低对人工的依赖,因此手工构建仍是主流方法。在手工构建领域本体时,一种提高效率的方式是复用现有本体,即针对新的需求对一个相同或相近领域的现有本体加以改造,成为一个新的本体,从而比重新开发节约成本。然而,从大量的现有本体中发现适合复用的本体手段非常匮乏。目前的一种主要途径是逐一浏览在线的本体图书馆(如美国国防部先进研究项目距代理标记语言(DAML,DefenseAdvancedResearchProjectsAgencyAgentMarkupLanguage)本体图书馆)中的本体,效率低下。另一种新兴的途径是进行本体检索,向本体检索系统(如Swoogle搜索引擎)提交查询关键词,获取并只浏览能够匹配到查询关键词的本体,从而提高效率。然而,尚未形成良好定义的方法来指导上述检索过程,特别是查询的构建方法。另一种加速手工构建领域本体的方式是多人协同构建,这种方式的难点在于多人构建结果的冲突检查和消解。尽管领域本体作为概念层次的模型,已经脱离了自然语言的层面,但在供人使用时仍需要对术语采用自然语言中的词汇进行命名,以便人的理解,因此,术语名称也是领域本体的重要组成部分。由于自然语言的多样性,一个术语可能对应到多个同义的自然语言词汇(如单反相机和单镜头反光相机),因此,领域本体构建中的一项重要环节是尽可能完全地获取术语名称的所有同义词。现有的同义词获取方法主要是利用语言学专家构建的同义词词典(如WordNet)。尽管同义词词典的精度很高,但覆盖面有限,并且目前可以获得的计算机程序易处理的同义词词典很少,其中,中文的同义词词典更少,因此,领域本体构建中的中文术语名称的同义词获取非常困难,通常只能基于构建者(即领域专家)的经验完成,难以保证质量,特别是获取的召回率(即完全度)。另一种同义词获取方法是利用社会公众的群体智能,这种方法利用了搜索引擎的用户查询日志,其基本思想是认为如果两个关键词常在用户查询中出现,且用户常打开它们对应的查询结果中的相同网页,则这两个关键词被认为是同义词。该方法存在的不足主要在于获取同义词的精度(即正确率)很低。原因在于一个网页可能涉及多个不同的主题,分别对应到不存在同义关系的多个关键词,因此,即使用户基于不同的查询关键词打开了相同的网页,也并不表明这些关键词必然存在同义关系。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种领域本体构建方法及系统,提供一种面向本例检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供一种领域本体构建方法,包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o。上述方法中,该方法还包括:为新的本体o中描述的术语命名,并根据新的本体o中描述的术语的名称进行同义词获取。上述方法中,所述罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0为:对于目标本体所描述的目标领域,使用自然语言LS中的关键词罗列需要被目标本体所描述的所有术语的名称,形成一个关键词集合W0。上述方法中,所述对关键词集合W0中的所有关键词进行排序,形成关键词序列S0为:建立树,树中每个节点具有标签和处理标记;判断树中是否所有节点的处理标记都是“已处理”,如果否,从树中所有处理标记是“未处理”的节点中选取当前节点,所述当前节点的标签的关键词集合W0为当前集合;判断当前集合中是否只包含一个关键词,当前集合包含超过一个关键词时,将当前集合划分为两个子集,将两个子集中的最重要子集WL作为当前节点的左子节点添加到树中,将两个子集中的另一个子集WR作为当前节点的右子节点添加到树中,将当前节点的处理标记改为“已处理”;否则,将当前节点的处理标记改为“已处理”,然后继续判断树中是否所有节点的处理标记都是“已处理”,直到树中所有节点的处理标记都是“已处理”时,根据关键词集合W0中的所有关键词所对应的节点的深度优先遍历顺序,形成关键词序列S0。上述方法中,所述将当前集合划分为两个子集为:将当前集合中的关键词作为对一个领域或范围的描述,将两个子集中的关键词分别作为对该领域或范围的两个不同子领域或子范围的描述。上述方法中,所述将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O为:创建待复用的本体集合O,将关键词序列S0记作S,获取S中的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;判断SH是否为空序列,如果SH为空序列,从ST中删除最前面的一个关键词;如果SH不为空序列,将检索结果HITS(SH)中排名最高的本体添加到O;判断ST是否为空序列,如果ST不为空序列,将ST记作S,再获取S的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;否则,如果ST为空序列,流程结束。上述方法中,所述条件为子序列中的所有关键词组合成一个查询关键词组,将所述查询关键词组提交到本体检索系统后,检索结果HITS(SH)不为空。上述方法中,所述对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o为:对本体集合O中的本文档来自技高网
...
一种领域本体构建方法及系统

【技术保护点】
一种领域本体构建方法,其特征在于,该方法包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o。

【技术特征摘要】
1.一种领域本体构建方法,其特征在于,该方法包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;其中,所述将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O为:创建待复用的本体集合O,将关键词序列S0记作S,获取S中的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;判断SH是否为空序列,如果SH为空序列,从ST中删除最前面的一个关键词;如果SH不为空序列,将检索结果HITS(SH)中排名最高的本体添加到O;判断ST是否为空序列,如果ST不为空序列,将ST记作S,再获取S的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;否则,如果ST为空序列,流程结束。2.根据权利要求1所述的方法,其特征在于,该方法还包括:为新的本体o中描述的术语命名,并根据新的本体o中描述的术语的名称进行同义词获取。3.根据权利要求1所述的方法,其特征在于,所述罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0为:对于目标本体所描述的目标领域,使用自然语言LS中的关键词罗列需要被目标本体所描述的所有术语的名称,形成一个关键词集合W0。4.根据权利要求1所述的方法,其特征在于,所述对关键词集合W0中的所有关键词进行排序,形成关键词序列S0为:建立树,树中每个节点具有标签和处理标记;判断树中是否所有节点的处理标记都是“已处理”,如果否,从树中所有处理标记是“未处理”的节点中选取当前节点,所述当前节点的标签的关键词集合W0为当前集合;判断当前集合中是否只包含一个关键词,当前集合包含超过一个关键词时,将当前集合划分为两个子集,将两个子集中的最重要子集WL作为当前节点的左子节点添加到树中,将两个子集中的另一个子集WR作为当前节点的右子节点添加到树中,将当前节点的处理标记改为“已处理”;否则,将当前节点的处理标记改为“已处理”,然后继续判断树中是否所有节点的处理标记都是“已处理”,直到树中所有节点的处理标记都是“已处理”时,根据关键词集合W0中的所有关键词所对应的节点的深度优先遍历顺序,形成关键词序列S0。5.根据权利要求4所述的方法,其特征在于,所述将当前集合划分为两个子集为:将当前集合中的关键词作为对一个领域或范围的描述,将两个子集中的关键词分别作为对该领域或范围的两个不同子领域或子范围的描述。6.根据权利要求1所述的方法,其特征在于,所述条件为子序列中的所有关键词组合...

【专利技术属性】
技术研发人员:董振江吉锋罗圣美程龚瞿裕忠
申请(专利权)人:中兴通讯股份有限公司南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1