基于深度学习的知识图谱构建方法、系统、设备及介质技术方案

技术编号:30375898 阅读:20 留言:0更新日期:2021-10-16 18:05
本申请公开了一种基于深度学习的知识图谱构建方法、系统、设备及介质,该方法包括:将未标注的医学文献数据输入关系抽取模型中,构建第一知识图谱,关系抽取模型是基于获取的已标注的医学文献数据构建的;将未标注的医学文献数据输入辅助标注模型中,确定未标注的医学文献数据中每个实体的分类结果,辅助标注模型是基于医学数据库构建的;采用半监督学习算法,根据每个实体的分类结果和第一知识图谱更新关系抽取模型,得到第二知识图谱。该方案能够基于融合了医学数据库的辅助标注模型对海量无标注医学文献数据进行标注,并通过半监督学习算法迭代更新关系抽取模型,提升了关系抽取模型的泛化能力,从而全面且快速地构建出高质量的知识图谱。质量的知识图谱。质量的知识图谱。

【技术实现步骤摘要】
基于深度学习的知识图谱构建方法、系统、设备及介质


[0001]本专利技术一般涉及自然语言处理
,具体涉及一种基于深度学习的知识图谱构建方法、系统、设备及介质。

技术介绍

[0002]随着人工智能技术的不断发展,医疗技术逐渐向智慧化转变,随之而来产生了很多线上平台,如医疗知识图谱,通过医疗知识图谱能够带来更加高效的服务。其中,知识图谱是一种大规模语义网络,以实体或概念作为节点,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0003]目前,传统的医疗知识图谱都是以半自动或者人工的方式构建,首先通过资深医生利用标注平台对大量无标注的医学文献进行手动标注,形成三元组数据,然后根据该三元组数据训练生成关系抽取模型,然后根据关系抽取模型和未标注的医学文献数据,整理得到知识图谱。然而,该方法需要大量资深医生进行标注数据,其标注工作量过大,耗费了大量人力和时间成本,且资深医生所提供的精标注医学文献非常有效,导致训练的关系抽取模型精度和泛化功能存在不足。

技术实现思路

[0004]鉴于现有技术中的上述缺陷或不足,期望提供一种基于深度学习的知识图谱构建方法、系统、设备及介质。
[0005]第一方面,本申请实施例提供了一种基于深度学习的知识图谱构建方法,该方法包括:将未标注的医学文献数据输入所述关系抽取模型中,构建第一知识图谱,其中,所述关系抽取模型是基于获取的已标注的医学文献数据构建的;将所述未标注的医学文献数据输入辅助标注模型中,确定所述未标注的医学文献数据中每个实体的分类结果,所述辅助标注模型是基于医学数据库构建的;采用半监督学习算法,根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱。
[0006]在其中一个实施例中,所述辅助标注模型包括命名实体识别模型和与所述命名实体识别模型相连接的Transformer模型,将所述未标注的医学文献数据输入辅助标注模型中,确定所述未标注的医学文献数据中每个实体的分类结果,包括:将所述未标注的医学文献数据输入所述命名实体识别模型中,得到第一特征向量;将所述第一特征向量输入所述Transformer模型中,得到第二特征向量;将所述第二特征向量依次通过线性层和激活函数层进行处理,得到所述每个实体的分类结果。
[0007]在其中一个实施例中,所述命名实体识别模型包括实体边界识别模型和实体分类
模型,将所述待标注的医学文献数据输入所述命名实体识别模型中,得到第一特征向量,包括:将所述未标注的医学文献数据输入所述实体边界识别模型中,确定所述未标注的医学文献数据中的每个实体词;将所述实体词映射至所述未标注的医学文献数据中,并进行分词处理,得到所述实体词在所述未标注的医学文献数据中的位置;将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中,得到所述第一特征向量。
[0008]在其中一个实施例中,将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中,得到所述第一特征向量,包括:通过所述实体分类模型的编码层对所述实体词在所述未标注的医学文献数据中的位置进行处理,得到第一实体向量;通过所述实体分类模型中冻结后的编码层对所述实体词进行处理,得到第二实体向量;将所述第一实体向量和所述第二实体向量作为所述第一特征向量。
[0009]在其中一个实施例中,所述实体边界识别模型按照如下方式构建,包括:采用span指针遍历所述已标注的医学文献数据;通过预训练语言模型对所述已标注的医学文献数据进行训练,构建所述实体边界识别模型。
[0010]在其中一个实施例中,所述实体分类模型按照如下方式构建包括:获取医学数据库数据,所述医学库数据包括实体名称和实体类别;将所述实体名称和所述实体类别进行整理,得到实体词典;基于所述实体词典进行训练,构建所述实体分类模型。
[0011]在其中一个实施例中,采用半监督学习模型,根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱,包括:基于所述第一知识图谱和所述每个实体的分类结果,将所述每个实体构建成句子以及所述句子对应的实体对;采用多实例学习算法将预测概率值最大的实体对对应的句子作为新增标签;基于所述新增标签和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱。
[0012]在其中一个实施例中,基于所述新增标签和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱,包括:基于所述已标注的历史医学文献数据和所述新增标签进行训练,按照损失函数最小化对所述关系抽取模型中的参数进行优化处理,得到更新后的关系抽取模型;将所述未标注的医学文献数据输入所述更新后的关系抽取模型中进行推理预测,得到三元组信息;对所述三元组信息进行校验和后处理,得到所述第二知识图谱。
[0013]第二方面,本申请提供了一种基于深度学习的知识图谱构建系统,该系统包括:知识图谱构建模块,用于将未标注的医学文献数据输入所述关系抽取模型中,构
建第一知识图谱,其中,所述关系抽取模型是基于获取的已标注的医学文献数据构建的;分类结果确定模块,用于将所述未标注的医学文献数据输入辅助标注模型中,确定所述未标注的医学文献数据中每个实体的分类结果,所述辅助标注模型是基于医学数据库构建的;模型更新模块,用于采用半监督学习算法,根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱。
[0014]第三方面,本申请实施例提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面的基于深度学习的知识图谱构建方法。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面的基于深度学习的知识图谱构建方法。
[0016]本申请实施例中提供的基于深度学习的知识图谱构建方法、系统、设备及存储介质,通过将未标注的医学文献数据输入关系抽取模型中,构建第一知识图谱,该关系抽取模型是基于获取的已标注的医学文献数据构建的,然后将未标注的医学文献数据输入辅助标注模型中,确定未标注的医学文献数据中每个实体的分类结果,该辅助标注模型是基于医学数据库构建的,并采用半监督学习算法,根据每个实体的分类结果和第一知识图谱更新关系抽取模型,得到第二知识图谱。该技术方案能够基于融合了医学数据库的辅助标注模型对海量无标注医学文献数据进行标注,以快速得到每个实体的分类结果,并通过半监督学习算法迭代更新关系抽取模型,很大程度上提升了关系抽取模型的效果和泛化能力,从而全面且快速地构建出高质量的知识图谱,有效减少了资深医生的工作量,节省了时间成本。
附图说明
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本申请实施例提供的传统的知识图谱构建方法的结构示意图;图2为本申请实施例提供的同义词的部分示意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的知识图谱构建方法,其特征在于,包括:将未标注的医学文献数据输入关系抽取模型中,构建第一知识图谱,其中,所述关系抽取模型是基于获取的已标注的医学文献数据构建的;将所述未标注的医学文献数据输入辅助标注模型中,确定所述未标注的医学文献数据中每个实体的分类结果,所述辅助标注模型是基于医学数据库构建的;采用半监督学习算法,根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型,得到第二知识图谱。2.根据权利要求1所述的方法,其特征在于,所述辅助标注模型包括命名实体识别模型和与所述命名实体识别模型相连接的Transformer模型,将所述未标注的医学文献数据输入辅助标注模型中,确定所述未标注的医学文献数据中每个实体的分类结果,包括:将所述未标注的医学文献数据输入所述命名实体识别模型中,得到第一特征向量;将所述第一特征向量输入所述Transformer模型中,得到第二特征向量;将所述第二特征向量依次通过线性层和激活函数层进行处理,得到所述每个实体的分类结果。3.根据权利要求2所述的方法,其特征在于,所述命名实体识别模型包括实体边界识别模型和实体分类模型,将所述待标注的医学文献数据输入所述命名实体识别模型中,得到第一特征向量,包括:将所述未标注的医学文献数据输入所述实体边界识别模型中,确定所述未标注的医学文献数据中的每个实体词;将所述实体词映射至所述未标注的医学文献数据中,并进行分词处理,得到所述实体词在所述未标注的医学文献数据中的位置;将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中,得到所述第一特征向量。4.根据权利要求3所述的方法,其特征在于,将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中,得到所述第一特征向量,包括:通过所述实体分类模型的编码层对所述实体词在所述未标注的医学文献数据中的位置进行处理,得到第一实体向量;通过所述实体分类模型中冻结后的编码层对所述实体词进行处理,得到第二实体向量;将所述第一实体向量和所述第二实体向量作为所述第一特征向量。5.根据权利要求3所述的方法,其特征在于,所述实体分类模型按照如下方式构建,包括:获取医学数据库数据,所述医学库数据包括实体名称和实体类别;将所述实体名称和所述实体类别进行整理,得到实体...

【专利技术属性】
技术研发人员:何昆仑李宗任钟琴
申请(专利权)人:中国人民解放军总医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1