一种本体智能生成方法技术

技术编号:35477515 阅读:7 留言:0更新日期:2022-11-05 16:26
本发明专利技术公开了一种本体智能生成方法,其步骤包括:1)将待处理XSD文档中用于描述实体的元素转化为类节点;将该待处理XSD文档中描述实体属性的元素转化为数据属性节点;2)根据该待处理XSD文档中元素之间的嵌套等级关系确定各元素所对应节点之间的边,生成该待处理XSD文档对应的有向图;3)生成所述有向图中的每一节点的语义嵌入向量,根据节点的语义嵌入向量计算节点间的语义相似度;将语义相似度大于设定阈值的节点合并为簇节点;4)根据步骤3)处理后的有向图得到OWL语言描述的资源知识内容本体。本发明专利技术能够揭示更多原有XML资源中的知识内容,提高本体对于原有知识内容的描述与揭示能力。能力。能力。

【技术实现步骤摘要】
一种本体智能生成方法


[0001]本专利技术涉及本体的智能生成方法,尤其涉及一种从原始知识资源提取知识内容的本体智能生成方法。

技术介绍

[0002]本体具有较强的语义描述能力,可以描述现实世界中的实体,揭示知识之间的关联。现在广泛使用的数据交换格式为XML,但XML只能表达不同元素之间的等级嵌套关系,不能很好揭示XML文档中具有的丰富语义内容。而OWL本体具有丰富表达性,可以描述原有知识资源中知识内容之间的相互关联,并使用体系化、形式化的方式进行表达。因此,为了更好挖掘XML知识资源中的知识内容,需要一种XML至OWL的转化方法。现有的转化方法多通过直接建立映射的方式,或直接根据XSD定义的元素类型进行转化,或使用XSD本身的树形结构进行转化,这些方法得到的OWL本体只能表达原有XML文档等级嵌套结构中的语义信息,在对于XML知识资源进行知识内容提取时,存在以下问题:(1)传统的方法不能更好地组织多源异构知识资源。原始知识资源(如XML资源文件)中涉及的标签复杂多样,仅通过简单的映射关系并不能很好对标签进行组织整序,使得最终形成的本体随着资源规模的增大而使本体结构异常复杂,没有形成有效的知识体系,知识资源的利用效率极低。(2)传统方法不能很好的揭示出原始知识资源中蕴含的丰富知识内容。现有的方法主要对于XML的等级嵌套结构进行转化,但不同的嵌套层级、所处的嵌套位置等信息并没有得到充分的利用,缺失用于形成知识体系的上下位关系,仅仅获取XSD结构树后进行转化实际上并没有深入语义层面进行分析,XML知识资源中蕴含的更深层的知识内容尚未得到进一步的描述与揭示。

技术实现思路

[0003]针对现有技术中存在的问题,本专利技术的目的在于提供一种本体智能生成方法,本专利技术基于有向图的XML至OWL转化,得到XML中的本体。
[0004]本专利技术的技术方案为:
[0005]一种本体智能生成方法,其步骤包括:
[0006]1)将待处理XSD文档中用于描述实体的元素转化为类节点;将该待处理XSD文档中描述实体属性的元素转化为数据属性节点;
[0007]2)根据该待处理XSD文档中元素之间的嵌套等级关系确定各元素所对应节点之间的边,生成该待处理XSD文档对应的有向图;
[0008]3)生成所述有向图中的每一节点的语义嵌入向量,根据节点的语义嵌入向量计算节点间的语义相似度;将语义相似度大于设定阈值的节点合并为簇节点;
[0009]4)根据步骤3)处理后的有向图得到OWL语言描述的资源知识内容本体。
[0010]进一步的,生成所述有向图的方法为:对于该待处理XSD文档中的嵌套关系N(a,b),a为父元素,b为子元素;根据N(a,b)生成元素a对应节点指向元素b所对应节点的有向边,并将该有向边命名为“has”+b;如果元素b满足条件(1)~(3)中任一条件,则元素a对应
节点与元素b所对应节点之间的边称为类边;其中条件(1)~(3)为:(1)元素b所对应节点为类节点之下的节点;(2)元素b在该待处理XSD中有具体的约束条件进行限制;(3)元素b为该待处理XSD中的命名节点,即元素b为实际业务对象。
[0011]进一步的,将语义相似度大于设定阈值的节点合并为簇节点的方法为:1)生成该处理XSD文档的XML结构树;将语义相似度大于设定阈值的节点放到同一节点团中,对每一节点团进行聚类,,从每一聚类簇I中选取一节点作为簇节点,其中选取聚类簇I中各节点所对应元素距离该XML结构树根节点最近的元素所对应节点作为聚类簇I的簇节点;2)建立从聚类簇I中簇节点指向聚类簇I中其他节点的有向边,命名为“hasMember”+节点名。
[0012]进一步的,根据步骤3)处理后的有向图得到OWL语言描述的资源知识内容本体的方法为:将有向图中的类节点或簇节点转化为OWL语言中的类;将类节点之间的有向边转化为OWL语言中的对象属性,将有向边的源节点转化为对象属性的定义域、目标节点转化为值域,将有向边的名称转化为对象属性的命名;将有向图中的非类节点的名称转化为OWL语言中数据属性的命名,将非类节点所连接的类节点作为数据属性的定义域,将非类节点所对应元素的数据类型转化为数据属性的值域。
[0013]进一步的,使用GraphSAGE算法生成所述有向图中的每一节点的语义嵌入向量。
[0014]一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
[0015]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
[0016]本专利技术的优点如下:
[0017]1.对原始资源的组织化程度更高。在生成本体时,并不仅仅依据元素的嵌套等级关系进行直接映射,而是首先使用有向图作为XML文档中原有知识资源的一种知识表示形式而非资源结构表示,在此基础上进行扩展,从而提高原始资源的组织水平。
[0018]2.对原始知识资源中知识内容的提取更丰富。除了使用有向图作为知识表示形式之外,学习得到图中节点的语义嵌入,并根据语义相似度创建新的节点作为原有相似语义信息的显性表达,揭示更多原有XML资源中的知识内容。
[0019]3.转化方法可以自动化实现,同时可以人工参与以提高效能。本方法虽然使用有向图作为转化中介,但全流程仍然可以通过自动化方式实现,并可以在转化过程中引入专家只是以进一步提高本体对于原有知识内容的描述与揭示能力。
附图说明
[0020]图1是本专利技术方法流程图。
具体实施方式
[0021]下面结合附图对本专利技术进行进一步详细描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0022]在转化之前首先需要得到XML的验证文档。为了提高XML至OWL的转化效能,首先需要明确XML文档中各元素的具体定义及限制,而一个合法的XML文档一定对应一个验证文档
作为对于XML文档中内容元素的定义。这里的验证文档主要指XSD文档,其他类型的验证文档也可以在本专利技术中使用。XSD验证文档中对于相应XML文档中的具体元素及元素之间的等级嵌套关系进行了定义,这两部分内容将作为接下来具体转化的依据。
[0023]本专利技术方法的具体流程为:
[0024]Step1:有向图节点的确定。确定一个有向图首先需要确定其中的节点,由XSD文档中定义的复杂元素通常可以包含其他元素或具有较多的属性,并且多用于描述现实生活中的一类实体,因此将XSD文档中的复杂元素均转化为节点。其次,XSD文档中还会定义一些对应XML文档中使用的自定义元素类型,这些元素类型通常为描述特定现实实体而定义,蕴含着解决相应问题所需的知识内容,用于描述实体的属性,因此同样转化为节点。但为了进行区分,将由复杂元素转化得到的节点作为类节点,对应OWL中的类(owl:Class),用于描述实体属性的元素转化得到的节点作为数据属性节点,对应O本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种本体智能生成方法,其步骤包括:1)将待处理XSD文档中用于描述实体的元素转化为类节点;将该待处理XSD文档中描述实体属性的元素转化为数据属性节点;2)根据该待处理XSD文档中元素之间的嵌套等级关系确定各元素所对应节点之间的边,生成该待处理XSD文档对应的有向图;3)生成所述有向图中的每一节点的语义嵌入向量,根据节点的语义嵌入向量计算节点间的语义相似度;将语义相似度大于设定阈值的节点合并为簇节点;4)根据步骤3)处理后的有向图得到OWL语言描述的资源知识内容本体。2.根据权利要求1所述的方法,其特征在于,生成所述有向图的方法为:对于该待处理XSD文档中的嵌套关系N(a,b),a为父元素,b为子元素;根据N(a,b)生成元素a对应节点指向元素b所对应节点的有向边,并将该有向边命名为“has”+b;如果元素b满足条件(1)~(3)中任一条件,则元素a对应节点与元素b所对应节点之间的边称为类边;其中条件(1)~(3)为:(1)元素b所对应节点为类节点之下的节点;(2)元素b在该待处理XSD中有具体的约束条件进行限制;(3)元素b为该待处理XSD中的命名节点,即元素b为实际业务对象。3.根据权利要求1所述的方法,其特征在于,将语义相似度大于设定阈值的节点合并为簇节点的方法为:1)生成该处理XSD文档的XML结构树;将语义相似度大于设定阈值的节点放到同一节点团中...

【专利技术属性】
技术研发人员:李广建王宇轩罗立群黄振张闻彬
申请(专利权)人:国网山东省电力公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1