基于面向映射的分块技术的大规模本体映射方法技术

技术编号:10075582 阅读:309 留言:0更新日期:2014-05-24 05:31
本发明专利技术提供一种基于面向映射的分块技术的大规模本体映射方法,先对源本体进行划分,然后利用源本体的划分结果确定目标本体中的相似概念块,最后通过NSGA-II算法获取的不同概念块之间的映射结果并通过贪心算法获取最终的本体映射结果。本发明专利技术采用通用的基于面向映射的分块技术来处理大规模本体映射问题,提高本体映射过程的效率与映射结果的质量。将大规模的本体划分成小的分块,映射过程只需关注分块与分块之间的比较,而不需要考虑整个本体,从而提高了匹配的效率。

【技术实现步骤摘要】

本专利技术涉及一种基于面向映射的分块技术的大规模本体映射方法
技术介绍
在医学、农林学和环境科学等众多领域中的研究者都要用到生物医学的数据源和工具来从事像药物专利技术或是从事环境对人体健康的影响因素等研究。因此在近十年内,产生了数量众多的分布在网络上的生物医学数据源。然而,随着在线的生物医学数据和相应的检索工具的数量的增长,研究者想在网上检索所需的生物医学信息(如通过某个病理条件下的一种基因来检索相关的疾病),这一过程不仅速度缓慢而且容易出错。因此集成不同的生物医学资源被认为是解决同时访问多个异质数据源的有效方案。然而大部分的生物医学系统的开发过程都是彼此独立的,并没有共同的数据结构和共享的数据字典,这就使得数据模式的异质性问题成为了数据资源集成的主要障碍。随着生物医学语义网的出现,很大程度上缓解了生物医学数据源间数据异质性问题。生物医学语义网的关键就是生物医学本体的开发。近些年来,生物医学领域的专家开发了数量众多的生物医学本体(如关于疾病、解剖学和遗传基因的本体),其中有不少本体中的信息是有交叉的(如两个本体中的一些实体在语义上是等价的)。由于本体可以有效地共享与复用知识和数据而被广泛地应用在语义网的异质数据源的交互中。然而由于人的主观性,同一个应用领域的不同本体可能用不同的方式定义同一个实体对象,产生了本体异质问题。解决该问题的方法是找出不同本体中实体间的对应关系,这一过程被称为本体映射。对于拥有上百万个概念实体的大规模的本体而言,通过人为的方式来完成本体映射是不现实的。因此,需要开发高效的本体映射系统来自动完成大规模本体映射任务。另外,近年来,地理信息受到了越来越多的关注。对于全球定位系统的构建、全新的可视化技术、用于获取地理数据的设备以及开发出可以集成不同的已有技术和设备的可存储和使用地理信息的系统的需求正不断增加。此外,由于地理空间语义网的成功,出现了越来越多的地理空间本体,这些本体可以用于描述地理空间科学领域的地理概念以及概念间的关系。随着这些地理空间本体的上层应用的发展,本体中的数据数量也在飞速增加。可是由于地理空间领域的数据具有模糊性、不确定性以及粒度级别众多等特点,同一个地理位置在不同的本体中可能具有不同的文件格式、表示类型、坐标参考系统、自然语言描绘等,这种快速的数据增长导致不同的地理空间本体之间的异质性问题变得越来越严重。如何集成这些地理空间本体,并在此基础上实现不同的上层的应用系统间的协作具有重大的现实意义。对于大规模本体映射技术而言,如何缩小待处理的数据规模是找出正确实体映射的关键。将待映射的本体划分为小规模的分块,通过映射相似的分块并集成多个映射结果是当前主流的技术。当前采用分块技术的大规模本体映射系统有COMA++、Falcon-AO、Anchor-Flood、Lily、GOMMA、LogMAP等,然而这些映射系统中采用的分块技术都没有考虑到分块过程中的映射目的,即对本体执行分块的过程与后续的映射过程是相对独立的两个步骤,这样就无法保证最终的本体映射结果的质量。针对这一问题,本专利技术提出采用面向映射的分块技术并将分块间的映射过程视为一个多目标优化问题,并通过多目标进化算法NSGA-II求解该问题,获取本体映射结果。在已有的技术方案中,Falcon-AO1,2同样也是通过基于分块的技术来实现大规模本体映射,同本专利技术的方案最为近似。Falcon-AO采用的是基于结构的相似度度量方法来形成分块,不同的本体分块之间的外部相似度和内部相似度采用以下公式计算:segSim(Si,Sj)=Σci∈Si,cj∈SjLinks(ci,cj)|Si|×|Sj|]]>Links(ci,cj)=2×depthOf(cij)depthOf(ci)+depthOf(cj)]]>其中ci和cj分别表示两个概念,cij表示ci和cj最近公共父节,depthOf(ci)是在本体结构中节点ci到根节点的边数。segSim(Si,Sj)表示分块Si和Sj的外部相似度,segSim(Si,Si)表示分块Si的内部相似度。给定一个本体O,Falcon-AO采用的划分算法输入n个概念块的集合(初始化的时候,本体中每一个概念独自成为一个概念块),参数k(表示期望输出的概念块数量)和参数ε(限制每个概念块中最大的概念数),并初始化概念块之间的内部相似度与外部相似度。在每次迭代的过程中,算法选出有最大内部相似度值的概念块Si,再选出同Si有最大外部相似度值的概念块Sj,将二者合并为一个概念块并计算新的概念块集合中所有概念块之间的内部相似度与外部相似度。当达到预期的分块数量k或是每个概念块中的概念数都达到规模上限ε或者没有一个概念块的内部相似度的值大于零时,算法终止。如图1和图2所示,在分别为两个本体o和o’分块后,通过以下公式找出相似的本体分块进行映射:Similarity(Si,Sj′)=2×anchors(Si,Sj′)Σu=1kanchors(Su,Sj′)+Σv=1k′anchors(Si,Sv′)]]>其中k和k'分别是本体o和o’产生的分块数,Si和S'j分别是o和o’中的两个分块,函数anchors(Si,S'j)计算分块Si和S'j中共同的的锚点(即通过简单的标签匹配方法获取的两个本体间的相似概念)数量,计算在分块S'j中的锚点数量。当分块之间的相似度超过阈值,则执行二者的映射操作。现有的技术方案的本体分块算法中分块相似度度量技术的效率不高,而且划分的过程同映射的过程是彼此独立的两个步骤,在划分本体的过程中并没有考虑到映射的目的,从而导致本体划分的过程十分盲目,使得最终产生的映射结果的质量得不到保证,例如不在相似分块中的一些锚点就无法出现在最终的映射结果中。
技术实现思路
针对现有的技术方案中存在的这些问题,本专利技术提供一种基于面向映射的分块技术的大规模本体映射方法,提高本体映射过程的效率与映射结果的质量和匹配的效率。本专利技术是这样实现的:一种基于面向映射的分块技术的大规模本体映射方法,包括:步骤10、对源本体进行划分,包括概念块初始化步骤和划分算法执行步骤,所述概念块初始化步骤中,本体中的每一个概念独自构成一个概念块,所述划分算法执行步骤中,根据概念块的大小和概念块之间的邻近概念相似度值来迭代地归并不同的概念块,形本文档来自技高网
...

【技术保护点】
一种基于面向映射的分块技术的大规模本体映射方法,其特征在于:包括:?步骤10、对源本体进行划分,包括概念块初始化步骤和划分算法执行步骤,所述概念块初始化步骤中,本体中的每一个概念独自构成一个概念块,所述划分算法执行步骤中,根据概念块的大小和概念块之间的邻近概念相似度值来迭代地归并不同的概念块,形成一个临时概念块集;?如果形成的临时概念块集合中的概念块规模同当前概念块集合的规模相同,算法终止,否则,算法将临时概念块集合取代当前概念块集合,并继续归并更多的概念块;如果概念块的规模为1或生成的临时概念块集合的内部相似度值小于某个阈值θ,则算法终止;?步骤20、对目标本体进行划分,包括:?步骤21、比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度,从目标本体中选取同源本体概念块对应的候选概念集;?步骤22、通过计算候选概念集中每个概念同源本体概念块间的关联值来进一步确定目标本体同源本体概念块对应的相关概念集;?步骤30、映射本体概念块,包括:?步骤31、提出基于无参考映射的本体映射结果评价体系,该本体映射结果评价体系采用两种不依赖于标准映射结果的指标,即MatchCoverage和Frequency来分别近似地获取映射结果的查全率和查准率,给定两个本体概念块S1和S2,MatchCoverage和Frequency分别由以下两个公式计算:?其中和分别是S1和S2中映射上的实体个数,和分别是S1和S2中所有实体的个数,是映射结果中的映射个数,MatchCoverage等于1,意味着映射结果的查全率很高;Frequency的值等于1,意味着映射结果的查准很高;步骤32、将本体概念块映射问题的优化模型视为一种双目标的优化问题,并且针对该问题设计了一种NSGA?II算法以解决,该NSGA?II算法为:?(1)、先确定群体中个体的编码方案;?(2)、确定算法的适应度函数,该适应度函数是步骤31中的分别用于计算MatchCoverage和Frequency的两个目标函数;?(3)、确定算法的遗传算子;?(4)、根据群体更新策略生成下一代个体;?步骤40、通过NSGA?II方法获取的不同概念块之间的映射结果通过贪心算法集成,以获取最终的本体映射结果。...

【技术特征摘要】
1.一种基于面向映射的分块技术的大规模本体映射方法,其特征在于:包括: 
步骤10、对源本体进行划分,包括概念块初始化步骤和划分算法执行步骤,所述概念块初始化步骤中,本体中的每一个概念独自构成一个概念块,所述划分算法执行步骤中,根据概念块的大小和概念块之间的邻近概念相似度值来迭代地归并不同的概念块,形成一个临时概念块集; 
如果形成的临时概念块集合中的概念块规模同当前概念块集合的规模相同,算法终止,否则,算法将临时概念块集合取代当前概念块集合,并继续归并更多的概念块;如果概念块的规模为1或生成的临时概念块集合的内部相似度值小于某个阈值θ,则算法终止; 
步骤20、对目标本体进行划分,包括: 
步骤21、比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度,从目标本体中选取同源本体概念块对应的候选概念集; 
步骤22、通过计算候选概念集中每个概念同源本体概念块间的关联值来进一步确定目标本体同源本体概念块对应的相关概念集; 
步骤30、映射本体概念块,包括: 
步骤31、提出基于无参考映射的本体映射结果评价体系,该本体映射结果评价体系采用两种不依赖于标准映射结果的指标,即MatchCoverage和Frequency来分别近似地获取映射结果的查全率和查准率,给定两个本体概念块S1和S2,MatchCoverage和Frequency分别由以下两个公式计算: 
其中和分别是S1和S2中映射上的实体个数,和分别是S1和S2中所有实体的个数,是映射结果中的映射个数,MatchCoverage等于1,意味着映射结果的查全率很高;Frequency的值等于1,意味着映射结果的查准很高; 
步骤32、将本体概念块映射问题的优化模型视为一种双目标的优化问题,并且针对该问题设计了一种NSGA-II算法以解决,该NSGA-II算法为: 
(1)、先确定群体中个体的编码方案; 
(2)、确定算法的适应度函数,该适应度函数是步骤31中的分别用于计算MatchCoverage和Frequency的两个目标函数; 
(3)、确定算法的遗传算子; 
(4)、根据群体更新策略生成下一代个体; 
步骤40、通过NSGA-II方法获取的不同概念块之间的映射结果通过贪心算法集成,以获取最终的本体映射结果。 
2.根据权利要求1所述的基于面向映射的分块技术的大规模本体映射方法,其特征在于:所述步骤10是采用基于邻近概念的相似度度量技术,本体中不同概念块间的邻近概念相似度取决于共同的邻近概念数量,给定两个概念块C1和C2,...

【专利技术属性】
技术研发人员:薛醒思王金水
申请(专利权)人:福建工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1