System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 从医学知识图谱中抽取因果关系的方法、介质及设备技术_技高网

从医学知识图谱中抽取因果关系的方法、介质及设备技术

技术编号:43142453 阅读:3 留言:0更新日期:2024-10-29 17:45
本发明专利技术公开了一种从医学知识图谱中抽取因果关系的方法、介质及设备,涉及数据挖掘领域,从医学知识图谱中抽取因果关系的方法主要包括:根据医学知识图谱数据构建医学知识三元组集合;对医学知识三元组集合进行去重合并、从中提取关系和实体,得到关系和实体的集合;将关系和实体的集合转换为二维表格数据;根据二维表格数据,利用基于Bootstrap抽样的逐层优化骨架算法,得到抽样数据集和优化骨架;根据抽样数据集,对优化骨架进行定向,得到最终的有向无环图。实施本发明专利技术提供的从医学知识图谱中抽取因果关系的方法、介质及设备,能提高因果关系抽取的准确度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,更具体地说,涉及一种从医学知识图谱中抽取因果关系的方法、介质及设备


技术介绍

1、随着因果推断技术在各个领域得到广泛应用,因果关系发现可以与知识图谱相结合,利用知识图谱中蕴含的因果关系提高知识图谱在各个应用领域中的建模和预测性能。知识图谱是由包含头实体、尾实体和关系组成的三元组组成,一个三元组可以表示一个知识或者一个事实,而每个实体之间通常用自己的属性。知识图谱也可以用来图表示,其中节点代表实体,边代表实体之间的关系,因此实体之间通过关系相互连接成了一个网状的知识结构。组成知识图谱的实体之间可能存在因果关系,例如在(肺炎,症状,呼吸困难)这个三元组中“肺炎”就是“呼吸困难”的原因,“呼吸困难”是“肺炎”的结果。组成知识图谱的关系之间也可能存在因果关系,例如在(莲花清瘟胶囊,主要成分,黄连)和(莲花清瘟胶囊,禁忌,辛辣)这两个三元组中,由于“主要成分”会与一些“辛辣”食物相克影响药效,导致了“禁忌”,所以“主要成分”是“禁忌”的原因,“禁忌”是“主要成分”的结果。因此,考虑使用因果关系发现算法抽取医学知识图谱中的因果关系。

2、现有因果关系发现算法可以分为基于约束的方法、基于打分的方法、基于混合的方法和基于连续优化的方法。基于约束的方法通过执行变量之间的条件独立性测试确定变量之间的依赖关系学习出结构骨架,然后根据变量之间的条件集对骨架进行定向得到因果结构。该类方法容易受噪声数据和样本数量大小的影响导致学习因果结构不准确。基于打分的方法通过在图空间中结合相应的搜索策略使用打分函数对候选图结构进行搜索打分学习出分数最高的因果结构。该类方法需要在庞大的图空间中进行搜索学习出分数最高的因果结构,随着节点数量的增加,图的搜索空间呈指数级增长,导致实际效率较差。基于混合的方法先通过基于约束的方法学习出结构骨架,然后使用打分函数对骨架进行定向得到最终的因果结构。连续优化方法通过将学习因果结构转换为关于参数的连续优化问题,采用梯度下降等技术学习参数模型并通过最小化某种损失函数来学习最优的因果结构。该类方法对数据的生成模型和噪声的分布有很强的依赖性,并且在对参数优化过程中可能会陷入局部最优解。

3、如何从知识图谱中自动挖掘出实体之间或关系之间的因果关系存在如下挑战:(1)由于现有因果关系发现算法一般只能在二维表格数据上学习因果关系,而知识图谱是由三元组构成的图结构数据,因此不能直接在表示知识图谱的图结构数据上学习因果关系。(2)知识图谱中实体或关系的规模较大时,现有因果关系发现算法从高维的实体或关系变量集中学习一个全局因果关系结构时存在效率低下的问题。(3)利用条件独立性测试判断变量之间的因果关系是当前的因果关系推断方法常用的一种主流方法。但是在现实中由于数据噪声及数据样本量的影响,条件独立性测试时会产生不可靠的条件独立性测试结果,学习到不准确的因果关系。


技术实现思路

1、本专利技术的目的在于,提供一种从医学知识图谱中抽取因果关系的方法、介质及设备,能提高因果关系抽取的准确度。

2、本专利技术提供一种从医学知识图谱中抽取因果关系的方法,包括以下步骤:s1:获取医学知识图谱数据,根据医学知识图谱数据,构建医学知识三元组集合;s2:对医学知识三元组集合进行去重合并、从中提取关系和实体,得到关系和实体的集合;s3:将关系和实体的集合转换为二维表格数据;s4:根据二维表格数据,利用基于bootstrap抽样的逐层优化骨架算法,得到抽样数据集和优化骨架;s5:根据抽样数据集,对优化骨架进行定向,得到最终的有向无环图。

3、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s1具体包括:获取医学知识图谱数据,根据医学知识图谱数据,构建医学知识三元组集合,如公式:

4、,

5、其中,表示一条医学知识,表示头实体,表示关系,表示尾实体,为实体集合,为关系集合。

6、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s3具体包括:s31:将关系和实体的集合中的关系当作样本,将与关系有关联的实体当作关系的特征,将关系转换得到的样本作为行,将实体转换得到的特征作为列,一种关系对应一个样本,将一个三元组中包含的头尾实体对应的两列特征的数值设为1,其余实体对应特征的数值设置为0,得到实体因果二维表格;s32:将关系和实体的集合中的实体当作样本,将与实体相关的关系当作实体的特征,将实体转换得到的样本作为行,将关系转换得到的特征作为列,一个实体对应一个样本,将三元组中与实体相关的关系对应特征的数值设置为1,其余无关的关系对应特征的数值设置为0,得到关系因果二维表格;根据实体因果二维表格和关系因果二维表格,得到二维表格数据。

7、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s4具体包括:s41:根据二维表格数据,得到原数据集;根据原数据集,利用bootstrap抽样,得到预设数量的抽样数据集,抽样数据集包括第1抽样数据集、第2抽样数据集……第n抽样数据集,其中n为预设数量;s42:取与目标变量全连接的骨架作为第0层的初始骨架,根据抽样数据集和第0层的初始骨架,得到与抽样数据集对应的第0层预设数量的骨架,第0层预设数量的骨架包括第0层第1骨架、第0层第2骨架……第0层第n骨架,其中n为预设数量;s43:对第0层预设数量的骨架进行融合,得到第0层全局骨架;将第0层全局骨架作为第1层初始骨架,根据抽样数据集和第1层的骨架,得到与抽样数据集对应的第1层预设数量的骨架,对第1层预设数量的骨架进行融合,得到第1层全局骨架;依次类推,得到每一层的全局骨架;每得到一层全局骨架,判断目标变量的邻接变量个数是否小于当前层,当目标变量的邻接变量个数不小于当前层时,继续得到下一层全局骨架,当目标变量的邻接变量个数小于当前层时,得到优化骨架。

8、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s5具体包括:s51:根据抽样数据集,利用爬山搜索策略不断调整优化骨架中的边,得到预设数量的贝叶斯狄利克雷等效一致得分最高的有向无环图;s52:将预设数量的贝叶斯狄利克雷等效一致得分最高的有向无环图中所有方向的边进行聚合,得到最终的有向无环图。

9、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s51具体包括:根据抽样数据集,利用爬山搜索策略不断调整优化骨架中的边,得到预设数量的贝叶斯狄利克雷等效一致得分最高的有向无环图,如公式:

10、,

11、其中,bdeu(g,d)为有向无环图在对应数据集d上的贝叶斯狄利克雷等效一致得分,是特定图结构的先验概率,是伽马函数,=1,2,……,,表示节点的父节点取值的组合,=1,2,……,,代表节点可能的取值,=1,2,……,,代表当节点取第个值时样本的个数,它的父节点取数据集中第个值组合,代表当的父节点取数据集中第个值组合时样本的个数,是等效样本量,表示对先前参数的置信度。

12、进一步地,上述从医学知识图谱中抽取因果关系的方法的步骤s52具体包括:将预本文档来自技高网...

【技术保护点】

1.一种从医学知识图谱中抽取因果关系的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S1具体包括:获取医学知识图谱数据,根据所述医学知识图谱数据,构建医学知识三元组集合,如公式:

3.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S3具体包括:

4.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S4具体包括:

5.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S5具体包括:

6.根据权利要求5所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S51具体包括:根据所述抽样数据集,利用爬山搜索策略不断调整所述优化骨架中的边,得到预设数量的贝叶斯狄利克雷等效一致得分最高的有向无环图,如公式:

7.根据权利要求5所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤S52具体包括:将所述预设数量的贝叶斯狄利克雷等效一致得分最高的有向无环图中所有方向的边进行聚合,得到最终的有向无环图,如公式:

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述的从医学知识图谱中抽取因果关系的方法的步骤。

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一所述的从医学知识图谱中抽取因果关系的方法的步骤。

...

【技术特征摘要】

1.一种从医学知识图谱中抽取因果关系的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤s1具体包括:获取医学知识图谱数据,根据所述医学知识图谱数据,构建医学知识三元组集合,如公式:

3.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤s3具体包括:

4.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤s4具体包括:

5.根据权利要求1所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤s5具体包括:

6.根据权利要求5所述的从医学知识图谱中抽取因果关系的方法,其特征在于,步骤s51具体包括:根据所述抽样数据集,利用爬山搜...

【专利技术属性】
技术研发人员:俞奎相国督董露露蒋曼青
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1