【技术实现步骤摘要】
一种知识图谱三元组置信度评价方法
[0001]本专利技术涉及一种知识图谱三元组置信度评价方法,更具体的说,尤其涉及一种包含评估阶段、融合阶段和校验阶段的知识图谱三元组置信度评价方法。
技术介绍
[0002]不同靶点、药物作为实体,靶点、药物之间的相互作用作为关系,将相关知识以属性的形式存储于实体和关系中,相互交织形成一个巨大的图谱,并支持查询、推理、智能分析等功能,该图谱就被称为“药物-靶点知识图谱(Drug-Target Knowledge Graph,DT KG)”。DT KG在有效揭示药物-靶点之间复杂的物理、生物化学作用规律,发现药物-靶点之间尚未发现的隐含作用关系,进而发现新型药物或者开发现有药物的新用途是生物医药领域知识图谱研究的重要方向。
[0003]知识图谱在构建过程中难免出现错误。为了发现知识图谱中的错误,提高知识图谱的质量,进而提升知识驱动的学习任务的性能,学界引入知识图谱三元组置信度的概念。知识图谱三元组置信度(KG triple trustworthiness),用于衡量三元组所表达知识的真实程度。知识图谱三元组置信度的取值范围为[0,1],值越接近0表示该三元组是错误的概率越大,反之,值越接近1则表示该三元组是真实的概率越大。
[0004]现有的知识图谱三元组置信度评价方法可以概括为3类,分类原则是按照知识图谱三元组置信度评价方法的适用阶段来划分的,如图1中1、2和3所示。第一类置信度评价方法用于“从文本数据中抽取三元组”的过程,典型的案例有:德国马克思普朗克信息研究中心的K ...
【技术保护点】
【技术特征摘要】
1.一种知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:a).实体层面评估;a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度N
r
参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度N
r
的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度N
r
取最高打分值;a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;a-3).外链规模角度对实体的评价,实体的外链规模置信度N
L
用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度N
L
等于实体的外链数目;a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:其中,P1、P2、
…
、P
i
、
…
、P
n
表示知识图谱中的节点,表示待研究节点P
j
的入度,表示待研究节点P
j
的出度,N表示知识图谱中的节点数,表示节点P
j
的PageRank值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度N
s
通过公式(3)进行求取:N
s
=N
in
+N
out
ꢀꢀꢀꢀꢀꢀꢀ
(3)
其中,N
s
表示实体的度的角度的置信度,N
in
表示实体节点的入度,N
out
表示实体节点的出度;b).关系层面评估;b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N
′
in
参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N
′
in
的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N
′
in
取最高打分值;b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA
′
通过公式(4)进行求取:其中,LCA
′
表示实体对(h,t)的文献共现角度置信度,N
′
表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称...
【专利技术属性】
技术研发人员:杨帅,王小红,赵志刚,窦方坤,曹皓伟,潘景山,魏志强,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。