System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种面向医学知识图谱的实体对齐方法及相关装置。
技术介绍
1、知识图谱(knowledge graph,kg)是一种将实体、关系和属性等知识以图形化的形式表示出来的知识库。它通过将知识以结构化的方式表示出来,使得计算机可以更好地理解和处理人类语言。近些年,随着人工智能的蓬勃发展,涌现了大量不同类型的多源知识图谱,这些知识图谱通常使用不同的语言表达,并存储了大量的高质量知识,为下游的智能化应用提供了重要的知识推理服务。目前,知识图谱已经成为现代人工智能的核心组成部分。然而,随着应用的深入,单个知识图谱中的知识量常常难以支撑复杂的业务场景,因此,实体对齐技术成为知识图谱相关研究的热点。知识图谱的实体对齐的目标,是发掘多源知识图谱中表示的现实世界中的等价对象,进而联合多源知识图谱构建业务范围更大,语义覆盖更广泛的知识图谱来支撑知识融合与推理。通过实体对齐,可以基于多个知识图谱协同推理,极大地促进下游任务性能的提升。
2、目前的实体对齐方法可以分为两类。一类传统的实体对齐方法主要基于字符串相似度度量,确定两个实体拼写是否在现实世界中指代相同的事物。基于字符串相似度度量的方法主要利用实体的符号特征,因此该方法也称为基于符号的实体对齐方法。该方法的缺点是缺乏对上下文语义的利用,导致实体对齐效果不佳。另一类是基于知识表示学习的实体对齐方法。相比于传统的方法,能够更好地利用上下文语义,目前已成为了实体对齐方面的主流技术。如,mtranse、bootea等。
3、医学知识图谱中的实体一般具有其
技术实现思路
1、基于上述问题,本申请提供了一种面向医学知识图谱的实体对齐方法及相关装置,目的是提升医学知识图谱的实体对齐性能。
2、本申请实施例公开了如下技术方案:
3、本申请第一方面提供了一种面向医学知识图谱的实体对齐方法,该方法包括:
4、根据医学知识图谱和跨层链接集合,构建所述医学知识图谱的异构图模型;所述异构图模型包括本体图和实例图,所述实例图基于所述跨层链接集合链接至所述本体图;所述本体图描述概念及概念间的层级关系;所述实例图描述实体的拓扑结构;所述跨层链接集合描述实体的概念的类型;
5、根据所述本体图学习所述医学知识图谱中实体在本体层的上下文语义信息,获得实体的第一向量表示;以及,根据所述实例图学习所述医学知识图谱中实体在实例层的上下文语义信息,获得实体的第二向量表示;
6、对同一实体的所述第一向量表示和所述第二向量表示进行联合学习,获得实体的融合向量表示;
7、基于第一医学知识图谱中实体的融合向量表示和第二医学知识图谱中实体的融合向量表示,执行实体对齐操作。
8、在本申请第一方面的一种可选实现方式中,所述根据所述本体图学习所述医学知识图谱中实体在本体层的上下文语义信息,获得实体的第一向量表示,包括:
9、对于所述医学知识图谱中的目标实体,根据所述跨层链接集合,确定在所述本体图中与所述目标实体相关的概念节点集合;所述目标实体相关的概念节点集合包括所述目标实体相关的所有祖先节点;
10、聚合所述概念节点集合中各概念节点的语义信息,获得所述目标实体的第一向量表示。
11、在本申请第一方面的一种可选实现方式中,所述聚合所述概念节点集合中各概念节点的语义信息,获得所述目标实体的第一向量表示,包括:
12、获取所述概念节点集合中各概念节点的向量表示;
13、获取所述概念节点集合中各概念节点分别与所述目标实体之间的语义兼容性权重系数;
14、根据所述概念节点集合中各概念节点分别与所述目标实体之间的语义兼容性权重系数,通过归一化指数函数计算得到所述概念节点集合中各概念节点的注意力权重系数;
15、利用所述概念节点集合中各概念节点的向量表示和注意力权重系数加权求和,将加权求和的第一计算结果作为所述目标实体的第一向量表示。
16、在本申请第一方面的一种可选实现方式中,所述获取所述概念节点集合中各概念节点的向量表示,包括:
17、对于所述概念节点集合中的目标概念节点,获取所述目标概念节点的各一阶子概念节点分别与所述目标概念节点之间的相关系数;所述相关系数用于表征一阶子概念节点对所述目标概念节点的语义贡献度;
18、根据所述目标概念节点的各一阶子概念节点分别与所述目标概念节点之间的相关系数,通过归一化指数函数计算得到各一阶子概念节点对于所述目标概念节点的语义贡献权重系数;
19、利用各一阶子概念节点的向量表示和各一阶子概念节点对于所述目标概念节点的语义贡献权重系数加权求和,将加权求和的第二计算结果作为所述目标概念节点的向量表示。
20、在本申请第一方面的一种可选实现方式中,所述根据所述实例图学习所述医学知识图谱中实体在实例层的上下文语义信息,获得实体的第二向量表示,包括:
21、对于所述实例图中表征所述目标实体的目标实体节点,根据所述目标实体节点自身的邻居节点,以及所述目标实体节点与自身的邻居节点之间的关系类型,通过自注意力机制获得所述目标实体节点对自身的邻居节点的注意力权重系数;所述邻居节点包括邻居实体节点和邻居属性节点;
22、利用所述目标实体节点的各邻居节点的向量表示及所述目标实体节点对自身的邻居节点的注意力权重系数,通过加权求和的方式将所述目标实体节点自身的邻居实体节点的语义信息以及邻居节点间的关系语义信息聚合到所述目标实体节点,获得所述目标实体的第二向量表示。
23、在本申请第一方面的一种可选实现方式中,所述利用所述目标实体节点的各邻居节点的向量表示及所述目标实体节点对自身的邻居节点的注意力权重系数,通过加权求和的方式将所述目标实体节点自身的邻居实体节点的语义信息以及邻居节点间的关系语义信息聚合到所述目标实体节点,获得所述目标实体的第二向量表示,包括:
24、通过多头注意力机制,获取每一个注意力头利用所述目标实体节点的各邻居节点的向量表示及所述目标实体节点对自身的邻居节点的注意力权重系数,加权求和生成的所述目标实体节点的语义信息聚合向量表示;
25、将每一个注意力头生成的所述目标实体节点的语义信息聚合向量表示进行拼接,得到拼接后的向量表示;
26、将所述拼接后的向量表示转换为拼接前的语义信息聚合向量表示的维度,得到所述目标实体的第二向量表示。
27、在本申请第一方面的一种可选实现方式中,实体语义信息的聚合通过多层图卷积网络实现,每一层图卷积网本文档来自技高网...
【技术保护点】
1.一种面向医学知识图谱的实体对齐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述本体图学习所述医学知识图谱中实体在本体层的上下文语义信息,获得实体的第一向量表示,包括:
3.根据权利要求2所述的方法,其特征在于,所述聚合所述概念节点集合中各概念节点的语义信息,获得所述目标实体的第一向量表示,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取所述概念节点集合中各概念节点的向量表示,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述实例图学习所述医学知识图谱中实体在实例层的上下文语义信息,获得实体的第二向量表示,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用所述目标实体节点的各邻居节点的向量表示及所述目标实体节点对自身的邻居节点的注意力权重系数,通过加权求和的方式将所述目标实体节点自身的邻居实体节点的语义信息以及邻居节点间的关系语义信息聚合到所述目标实体节点,获得所述目标实体的第二向量表示,包括:
7.根据权利要求5所述的方法,其特征在于,实体语义
8.根据权利要求1所述的方法,其特征在于,所述对同一实体的所述第一向量表示和所述第二向量表示进行联合学习,获得实体的融合向量表示,包括:
9.根据权利要求1所述的方法,其特征在于,所述基于第一医学知识图谱中实体的融合向量表示和第二医学知识图谱中实体的融合向量表示,执行实体对齐操作,包括:
10.一种面向医学知识图谱的实体对齐装置,其特征在于,包括:
11.一种面向医学知识图谱的实体对齐设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-9中任一项所述的面向医学知识图谱的实体对齐方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的面向医学知识图谱的实体对齐方法的步骤。
...【技术特征摘要】
1.一种面向医学知识图谱的实体对齐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述本体图学习所述医学知识图谱中实体在本体层的上下文语义信息,获得实体的第一向量表示,包括:
3.根据权利要求2所述的方法,其特征在于,所述聚合所述概念节点集合中各概念节点的语义信息,获得所述目标实体的第一向量表示,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取所述概念节点集合中各概念节点的向量表示,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述实例图学习所述医学知识图谱中实体在实例层的上下文语义信息,获得实体的第二向量表示,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用所述目标实体节点的各邻居节点的向量表示及所述目标实体节点对自身的邻居节点的注意力权重系数,通过加权求和的方式将所述目标实体节点自身的邻居实体节点的语义信息以及邻居节点间的关系语义信息聚合到所述目标实体节点,获得所述目标实体的第二向量表示,包括:
【专利技术属性】
技术研发人员:王伟光,蔡巍,张霞,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。