【技术实现步骤摘要】
一种领域本体构建方法及系统
本专利技术涉及信息系统建模和知识工程领域,尤其涉及一种基于本体复用的领域本体构建方法及系统。
技术介绍
汤姆·格鲁伯(TomGruber)将本体(Ontology)定义为一种为共享而构建的概念化的显式规范。概念化是指为一个领域或范围内的抽象概念、具体对象、对象属性及对象间关系建立的模型,而本体是将一个概念化显式地表示成为规范,以便多个主体共享。在本体中,上述概念、关系等统称为术语(Term);本体可以视作由称作公理(Axiom)的术语描述组成的集合。尼古拉·高利诺(NicolaGuarino)将本体分为顶层本体、领域本体、任务本体、应用本体。其中,顶层本体描述通用的概念(如空间、时间),领域和任务本体分别描述一般的领域(如单反相机)和一般的任务(如相机销售),而应用本体则描述具体应用涉及的具体范围(如一个具体的单反相机销售网站)。其中,顶层本体通常比较稳定,应用本体的共享意义较小,因此,领域和任务本体的构建最为活跃,其构建方法最为重要。现有的构建领域本体的方法可以分为两类:手工构建和半自动构建。手工构建以本体描述捕获方法(IDEF5,IntegratedDefinitionforOntologyDescriptionCaptureMethod)为代表,将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤,每一步都由人手工完成。半自动构建又称本体学习,由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语,形成初步的本体,再经过人手工精化和验证。然而,目前计算机程序自动构建的初步 ...
【技术保护点】
一种领域本体构建方法,其特征在于,该方法包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o。
【技术特征摘要】
1.一种领域本体构建方法,其特征在于,该方法包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;其中,所述将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O为:创建待复用的本体集合O,将关键词序列S0记作S,获取S中的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;判断SH是否为空序列,如果SH为空序列,从ST中删除最前面的一个关键词;如果SH不为空序列,将检索结果HITS(SH)中排名最高的本体添加到O;判断ST是否为空序列,如果ST不为空序列,将ST记作S,再获取S的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;否则,如果ST为空序列,流程结束。2.根据权利要求1所述的方法,其特征在于,该方法还包括:为新的本体o中描述的术语命名,并根据新的本体o中描述的术语的名称进行同义词获取。3.根据权利要求1所述的方法,其特征在于,所述罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0为:对于目标本体所描述的目标领域,使用自然语言LS中的关键词罗列需要被目标本体所描述的所有术语的名称,形成一个关键词集合W0。4.根据权利要求1所述的方法,其特征在于,所述对关键词集合W0中的所有关键词进行排序,形成关键词序列S0为:建立树,树中每个节点具有标签和处理标记;判断树中是否所有节点的处理标记都是“已处理”,如果否,从树中所有处理标记是“未处理”的节点中选取当前节点,所述当前节点的标签的关键词集合W0为当前集合;判断当前集合中是否只包含一个关键词,当前集合包含超过一个关键词时,将当前集合划分为两个子集,将两个子集中的最重要子集WL作为当前节点的左子节点添加到树中,将两个子集中的另一个子集WR作为当前节点的右子节点添加到树中,将当前节点的处理标记改为“已处理”;否则,将当前节点的处理标记改为“已处理”,然后继续判断树中是否所有节点的处理标记都是“已处理”,直到树中所有节点的处理标记都是“已处理”时,根据关键词集合W0中的所有关键词所对应的节点的深度优先遍历顺序,形成关键词序列S0。5.根据权利要求4所述的方法,其特征在于,所述将当前集合划分为两个子集为:将当前集合中的关键词作为对一个领域或范围的描述,将两个子集中的关键词分别作为对该领域或范围的两个不同子领域或子范围的描述。6.根据权利要求1所述的方法,其特征在于,所述条件为子序列中的所有关键词组合...
【专利技术属性】
技术研发人员:董振江,吉锋,罗圣美,程龚,瞿裕忠,
申请(专利权)人:中兴通讯股份有限公司,南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。