一种知识图谱三元组置信度评价方法技术

技术编号:27512288 阅读:23 留言:0更新日期:2021-03-02 18:43
本发明专利技术的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,a).实体层面评估;a

【技术实现步骤摘要】
一种知识图谱三元组置信度评价方法


[0001]本专利技术涉及一种知识图谱三元组置信度评价方法,更具体的说,尤其涉及一种包含评估阶段、融合阶段和校验阶段的知识图谱三元组置信度评价方法。

技术介绍

[0002]不同靶点、药物作为实体,靶点、药物之间的相互作用作为关系,将相关知识以属性的形式存储于实体和关系中,相互交织形成一个巨大的图谱,并支持查询、推理、智能分析等功能,该图谱就被称为“药物-靶点知识图谱(Drug-Target Knowledge Graph,DT KG)”。DT KG在有效揭示药物-靶点之间复杂的物理、生物化学作用规律,发现药物-靶点之间尚未发现的隐含作用关系,进而发现新型药物或者开发现有药物的新用途是生物医药领域知识图谱研究的重要方向。
[0003]知识图谱在构建过程中难免出现错误。为了发现知识图谱中的错误,提高知识图谱的质量,进而提升知识驱动的学习任务的性能,学界引入知识图谱三元组置信度的概念。知识图谱三元组置信度(KG triple trustworthiness),用于衡量三元组所表达知识的真实程度。知识图谱三元组置信度的取值范围为[0,1],值越接近0表示该三元组是错误的概率越大,反之,值越接近1则表示该三元组是真实的概率越大。
[0004]现有的知识图谱三元组置信度评价方法可以概括为3类,分类原则是按照知识图谱三元组置信度评价方法的适用阶段来划分的,如图1中1、2和3所示。第一类置信度评价方法用于“从文本数据中抽取三元组”的过程,典型的案例有:德国马克思普朗克信息研究中心的Knowlife知识库。第二类置信度评价方法用于Embedding过程,Embedding旨在将所有实体和关系编码成连续的向量空间。在Embedding过程中进行置信度评价并剔除数据噪声是近年科研人员研究的热点,典型的方法有:SCEF(a novel support-confidence-aware KG embedding framework)、CKRL(a novel confidence-aware knowledge representation learning framework)、TransT(a novel translating embedding learning approach with triple trustiness)等。第三类置信度评价方法直接对三元组进行评估,可以衡量知识推理得到的三元组的可靠性,同时也适用于动态知识库的置信度评价。典型的方法有:KGTtm(a knowledge graph triple trustworthiness measurement model)、CTransE(knowledge graph embedding on uncertain knowledge graphs by using adapting confidence-margin-based loss function for translation-based models)等。
[0005]现有的知识图谱三元组置信度评价方法如表1所示,、列举了7种方法:
[0006]表1
[0007]方法名称适用阶段年份KnowLife从文本中提取实体及关系2015SCEFEmbedding2019KGTtm三元组2019
TransTEmbedding2019CKRLEmbedding2018ConfGCN节点属性预测2019CTransEEmbedding2019
[0008](1)KnowLife实现了一种通用且可扩展的自动构建生物医学知识库的方法,它从科学出版物、健康门户网站和在线社区资源中自动提取信息,并在自动信息提取过程中引入置信度评价规则,用于定量衡量抽取得到的实体及关系数据的可靠性,从而提高生物医学知识库的质量。
[0009](2)SCEF是一种支持置信度感知的知识图嵌入框架,该框架在传统的基于翻译模型的基础上,结合置信度构建能量函数,通过具有三重置信度(文本、知识图和三元组)的知识表示学习来实现知识图的完善和矫正。
[0010](3)KGTtm是一个知识图谱三元组置信度的度量模型,它从实体层面、关系层面和知识图谱全局层面量化三元组的语义正确性和所表达事实的真实程度。
[0011](4)TransT是一种基于实体类型、实体描述等信息计算三元组置信度的模型,它通过基于交叉熵的损失函数来优化模型,进而提高知识嵌入学习的性能。
[0012](5)CKRL是一种基于置信度的知识表示学习框架,它引入了基于结构信息的置信度的概念,通过使用三元组的实体、关系和实体间路径的向量信息构建能量方程,提升了知识表示学习和知识图谱噪声探测的效果。
[0013](6)ConfGCN模型用于“预测节点属性”任务的可靠性,可以用于评估图中节点标签的得分及其置信度。
[0014](7)CTransE是一种基于翻译的模型,它用于处理知识图在自动更新时引入的错误,该模型采用基于置信度的损失函数来完成对动态知识图的嵌入表示学习。
[0015]但现有的知识图谱三元组置信度评价方法存在如下缺点:
[0016]1、考虑因素不全面,置信度得分不可靠。现有置信度评价方法考虑了知识图谱全局层面、实体层面和关系层面的置信度影响因素,但是未将科研文献、数据来源两个因素考虑在内,这导致最终得到的置信度得分不可靠。
[0017]2、计算复杂度高,可解释性差。现有方法通过机器学习模型评价三元组置信度(例如:KGTtm基于RNN进行知识图谱全局层面的置信度评价,SemaTyP通过构建逻辑回归模型进行置信度评价),模型计算复杂度高,且可解释性差。
[0018]3、置信度评价局限于Embedding过程。现有的绝大多数置信度评价方法适用于Embedding过程中,这些方法无法直接评价通过知识推理和自动化方法构建的三元组的质量。

技术实现思路

[0019]本专利技术为了克服上述技术问题的缺点,提供了一种知识图谱三元组置信度评价方法。
[0020]本专利技术的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:
[0021]a).实体层面评估;
[0022]a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度N
r
参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度N
r
的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度N
r
取最高打分值;
[0023]a-2).文献共现角度对实体的评价,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:a).实体层面评估;a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度N
r
参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度N
r
的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度N
r
取最高打分值;a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;a-3).外链规模角度对实体的评价,实体的外链规模置信度N
L
用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度N
L
等于实体的外链数目;a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:其中,P1、P2、

、P
i


、P
n
表示知识图谱中的节点,表示待研究节点P
j
的入度,表示待研究节点P
j
的出度,N表示知识图谱中的节点数,表示节点P
j
的PageRank值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度N
s
通过公式(3)进行求取:N
s
=N
in
+N
out
ꢀꢀꢀꢀꢀꢀꢀ
(3)
其中,N
s
表示实体的度的角度的置信度,N
in
表示实体节点的入度,N
out
表示实体节点的出度;b).关系层面评估;b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N

in
参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N

in
的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N

in
取最高打分值;b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA

通过公式(4)进行求取:其中,LCA

表示实体对(h,t)的文献共现角度置信度,N

表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称...

【专利技术属性】
技术研发人员:杨帅王小红赵志刚窦方坤曹皓伟潘景山魏志强
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1