基于深度学习的知识图谱构建方法、系统、设备及介质技术方案

技术编号：30375898 阅读：20 留言：0更新日期：2021-10-16 18:05

本申请公开了一种基于深度学习的知识图谱构建方法、系统、设备及介质，该方法包括：将未标注的医学文献数据输入关系抽取模型中，构建第一知识图谱，关系抽取模型是基于获取的已标注的医学文献数据构建的；将未标注的医学文献数据输入辅助标注模型中，确定未标注的医学文献数据中每个实体的分类结果，辅助标注模型是基于医学数据库构建的；采用半监督学习算法，根据每个实体的分类结果和第一知识图谱更新关系抽取模型，得到第二知识图谱。该方案能够基于融合了医学数据库的辅助标注模型对海量无标注医学文献数据进行标注，并通过半监督学习算法迭代更新关系抽取模型，提升了关系抽取模型的泛化能力，从而全面且快速地构建出高质量的知识图谱。质量的知识图谱。质量的知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的知识图谱构建方法、系统、设备及介质

[0001]本专利技术一般涉及自然语言处理
，具体涉及一种基于深度学习的知识图谱构建方法、系统、设备及介质。

技术介绍

[0002]随着人工智能技术的不断发展，医疗技术逐渐向智慧化转变，随之而来产生了很多线上平台，如医疗知识图谱，通过医疗知识图谱能够带来更加高效的服务。其中，知识图谱是一种大规模语义网络，以实体或概念作为节点，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0003]目前，传统的医疗知识图谱都是以半自动或者人工的方式构建，首先通过资深医生利用标注平台对大量无标注的医学文献进行手动标注，形成三元组数据，然后根据该三元组数据训练生成关系抽取模型，然后根据关系抽取模型和未标注的医学文献数据，整理得到知识图谱。然而，该方法需要大量资深医生进行标注数据，其标注工作量过大，耗费了大量人力和时间成本，且资深医生所提供的精标注医学文献非常有效，导致训练的关系抽取模型精度和泛化功能存在不足。

技术实现思路

[0004]鉴于现有技术中的上述缺陷或不足，期望提供一种基于深度学习的知识图谱构建方法、系统、设备及介质。
[0005]第一方面，本申请实施例提供了一种基于深度学习的知识图谱构建方法，该方法包括：将未标注的医学文献数据输入所述关系抽取模型中，构建第一知识图谱，其中，所述关系抽取模型是基于获取的已标注的医学文献数据构建的；将所述未标注的医学文献数据输入辅助标注模型中，确定所述未标注的医学文...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的知识图谱构建方法，其特征在于，包括：将未标注的医学文献数据输入关系抽取模型中，构建第一知识图谱，其中，所述关系抽取模型是基于获取的已标注的医学文献数据构建的；将所述未标注的医学文献数据输入辅助标注模型中，确定所述未标注的医学文献数据中每个实体的分类结果，所述辅助标注模型是基于医学数据库构建的；采用半监督学习算法，根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型，得到第二知识图谱。2.根据权利要求1所述的方法，其特征在于，所述辅助标注模型包括命名实体识别模型和与所述命名实体识别模型相连接的Transformer模型，将所述未标注的医学文献数据输入辅助标注模型中，确定所述未标注的医学文献数据中每个实体的分类结果，包括：将所述未标注的医学文献数据输入所述命名实体识别模型中，得到第一特征向量；将所述第一特征向量输入所述Transformer模型中，得到第二特征向量；将所述第二特征向量依次通过线性层和激活函数层进行处理，得到所述每个实体的分类结果。3.根据权利要求2所述的方法，其特征在于，所述命名实体识别模型包括实体边界识别模型和实体分类模型，将所述待标注的医学文献数据输入所述命名实体识别模型中，得到第一特征向量，包括：将所述未标注的医学文献数据输入所述实体边界识别模型中，确定所述未标注的医学文献数据中的每个实体词；将所述实体词映射至所述未标注的医学文献数据中，并进行分词处理，得到所述实体词在所述未标注的医学文献数据中的位置；将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中，得到所述第一特征向量。4.根据权利要求3所述的方法，其特征在于，将所述实体词和所述实体词在所述未标注的医学文献数据中的位置输入所述实体分类模型中，得到所述第一特征向量，包括：通过所述实体分类模型的编码层对所述实体词在所述未标注的医学文献数据中的位置进行处理，得到第一实体向量；通过所述实体分类模型中冻结后的编码层对所述实体词进行处理，得到第二实体向量；将所述第一实体向量和所述第二实体向量作为所述第一特征向量。5.根据权利要求3所述的方法，其特征在于，所述实体分类模型按照如下方式构建，包括：获取医学数据库数据，所述医学库数据包括实体名称和实体类别；将所述实体名称和所述实体类别进行整理，得到实体...

【专利技术属性】
技术研发人员：何昆仑，李宗任，钟琴，
申请(专利权)人：中国人民解放军总医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人