一种医疗领域知识图谱构建的方法技术

技术编号:38429236 阅读:9 留言:0更新日期:2023-08-07 11:26
本发明专利技术提供了一种医疗领域知识图谱构建的方法,其特征在于,包括一下步骤:S1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;S2、对获取到的数据进行知识抽取和存储;S3、对已有的知识进行融合,包括本体融合和实体融合;S4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估;本发明专利技术采用多种深度学习和机器学习算法进行知识提取,基于本体层和实体层2个维度进行知识的融合,采用多种算法和策略对图谱进行知识的推理和补全并且采用一种综合质量评估的方法对图谱进行质量评估,得到一个全面的、质量高的、可不断更新迭代的医疗领域的知识图谱。识图谱。识图谱。

【技术实现步骤摘要】
一种医疗领域知识图谱构建的方法


[0001]本专利技术涉及人工智能技术在医疗领域的一个实现,具体地说是一种医疗领域知识图谱构建的方法。

技术介绍

[0002]随着人们对健康问题的愈发重视,医疗保健费用、需求的增长与优质的医疗资源不足之间的矛盾亟待解决。由于近几年人工智能的飞速发展及精准医疗、智慧医疗的提出,医学知识图谱正受到国内外企业、学界的广泛关注,有望带来廉价、高效、精准的医疗建议和诊断。
[0003]现有技术中还存在着以下问题:针对医疗领域知识提取的算法太过简单,进行复杂知识提取的效果较差,知识融合只考虑到了实体的融合,没有考虑到本体的融合,缺少对图谱的推理和补全的过程,缺少对图谱的质量评估或质量评估的设计太过简单。

技术实现思路

[0004]本专利技术的目的在于提出一种医疗领域知识图谱构建的方法,以解决上述
技术介绍
中提出的知识提取的算法太过简单,提取效果差,知识融合缺少本体的融合,缺少图谱的推理和补全的过程,且缺少对图谱的质量评估的问题。
[0005]为实现上述目的,本专利技术提供以下技术方案:
[0006]一种医疗领域知识图谱构建的方法,包括S1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;S2、对获取到的数据进行知识抽取和存储;S3、对已有的知识进行融合,包括本体融合和实体融合;S4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估。
[0007]所述步骤S1具体包括以下内容:
[0008]通过接入已有的医疗相关系统数据、网络爬虫爬取医疗数据等方式获取医疗相关的结构化数据、半结构化数据和非结构化数据,并对获取到的数据进行分类和清洗;
[0009]其中,接入已有的医疗相关系统数据的步骤如下:
[0010]S1.1.1、对已有的医疗系统进行调研;
[0011]S1.1.2、接入已有的医疗系统数据;
[0012]网络爬虫爬取医疗数据的步骤如下:
[0013]S1.2.1、获取目标医疗数据的URL;
[0014]S1.2.2、向对应URL提交HTTP请求;
[0015]S1.2.3、解析HTTP响应;
[0016]S1.2.4、存储解析结果。
[0017]所述步骤S2具体包括结构化数据的知识提取和对半结构化和非结构化数据进行知识提取,其中结构化数据的知识提取通过利用R2RML映射语言将知识从关系数据库映射到RDF数据集中;而对半结构化和非结构化数据进行知识提取采用LSTM

CRF命名实体识别
模型进行实体抽取或采用PCNN分段卷积神经网络进行关系抽取;最后将抽取的知识存入到Jena(Apache旗下的RDF三元组数据库)中。
[0018]所述步骤S2中采用LSTM

CRF命名实体识别模型进行实体抽取时,模型的构建流程如下:
[0019]S2.1.1、建立Embedding层,将词映射为词向量;
[0020]S2.1.2、建立n层的双向LSTM层,学习词的前后语义信息;
[0021]S2.1.3、建立CRF层,对各个词进行序列标注;
[0022]采用PCNN分段卷积神经网络进行关系抽取,模型的构建流程如下:
[0023]S2.2.1、建立Embedding词向量提取层,将词和词的位置信息映射为词向量;
[0024]S2.2.2、建立卷积层,对文本进行分段卷积操作;
[0025]S2.2.3、建立max池化层;
[0026]S2.2.4、建立输出层,激活函数为softmax函数;
[0027]采用DMCNN动态多池化卷积神经网络进行事件抽取时,模型的构建流程如下:
[0028]S2.3.1、建立Embedding词向量提取层,将词和词的位置信息映射为词向量;
[0029]S2.3.2、建立句子级特征提取层,具体包括:
[0030]S2.3.2.1、建立卷积层,对文本进行分段卷积操作;
[0031]S2.3.2.2、建立max池化层;
[0032]S2.3.3、建立词汇级特征提取层;
[0033]S2.3.4、将句子级特征提取层和词汇级特征提取层得到的向量合并;
[0034]S2.3.5、建立输出层,激活函数为softmax函数。
[0035]所述步骤S3中本体融合具体包括以下内容:
[0036]S3.1.1、导入待映射的本体,待映射的本体不一定都要转换为统一的本体语言格式,但是要保证本体中需要进行映射的成分能够被方便获取;
[0037]S3.1.2、发现映射,基于术语的本体融合算法,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则;
[0038]S3.1.3、表示映射,当本体之间的映射被找到后,需要将这些映射合理地表示起来;
[0039]所述步骤S3.1.2中,基于术语的本体融合算法包括以下内容:
[0040]术语对齐:对本体中的术语进行对齐,找出它们之间的对应关系。对齐方法采用字符串匹配、语义相似度计算;
[0041]术语映射:根据对齐结果,对本体中的术语进行映射,即将不同本体中的术语映射到同一个术语上;
[0042]结构合并:根据术语映射结果,对本体的结构进行合并,即将不同本体中的类、属性、实例等之间的关系进行合并;
[0043]冲突解决:在合并过程中可能会出现冲突,如类之间的继承关系等;需要采用一定的方法来解决这些冲突;
[0044]解决这些冲突的方法包括:
[0045]人工干预:将冲突的本体交由人工进行决策,选择最合适的解决方案;
[0046]权衡法:对于不同的解决方案进行评估,选择其中权值最大的方案;
[0047]合并法:将两个本体中出现冲突的部分进行合并,得到一个新的本体;
[0048]抛弃法:放弃其中一个本体或者某一部分的信息;
[0049]转换法:将冲突的信息转换成另一种形式,使得它们不再冲突。
[0050]所述步骤S3.1.3中,映射具体步骤如下:
[0051]创建映射关系:根据术语对齐结果,创建不同本体中术语之间的映射关系;映射关系可以表示为一个矩阵,其中每一行表示一组映射关系;
[0052]冲突解决:在创建映射关系的过程中可能会出现冲突,需要采用一定的方法来解决这些冲突;这里的方法和步骤S3.1.2中的冲突解决的方法一致;
[0053]优化映射关系:通过使用一些算法对映射关系进行优化,如使用随机游走算法、生成对抗网络等;
[0054]确定映射关系的优先级:根据不同的应用场景,确定映射关系的优先级,选择最合适的映射关系。
[0055]所述步骤S3中实体融合具体包括以下内容:
[0056]S3.2.1、数据预处理,去除实体名称上的标点符号、进行同义词扩展等;
[0057]S3.2.2、分块,通过启发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗领域知识图谱构建的方法,其特征在于,包括S1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;S2、对获取到的数据进行知识抽取和存储;S3、对已有的知识进行融合,包括本体融合和实体融合;S4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估。2.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S1具体包括以下内容:通过接入已有的医疗相关系统数据、网络爬虫爬取医疗数据等方式获取医疗相关的结构化数据、半结构化数据和非结构化数据,并对获取到的数据进行分类和清洗;其中,接入已有的医疗相关系统数据的步骤如下:S1.1.1、对已有的医疗系统进行调研;S1.1.2、接入已有的医疗系统数据;网络爬虫爬取医疗数据的步骤如下:S1.2.1、获取目标医疗数据的URL;S1.2.2、向对应URL提交HTTP请求;S1.2.3、解析HTTP响应;S1.2.4、存储解析结果。3.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S2具体包括结构化数据的知识提取和对半结构化和非结构化数据进行知识提取,其中结构化数据的知识提取通过利用R2RML映射语言将知识从关系数据库映射到RDF数据集中;而对半结构化和非结构化数据进行知识提取采用LSTM

CRF命名实体识别模型进行实体抽取或采用PCNN分段卷积神经网络进行关系抽取;最后将抽取的知识存入到Jena(Apache旗下的RDF三元组数据库)中。4.根据权利要求3所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S2中采用LSTM

CRF命名实体识别模型进行实体抽取时,模型的构建流程如下:S2.1.1、建立Embedding层,将词映射为词向量;S2.1.2、建立n层的双向LSTM层,学习词的前后语义信息;S2.1.3、建立CRF层,对各个词进行序列标注;采用PCNN分段卷积神经网络进行关系抽取,模型的构建流程如下:S2.2.1、建立Embedding词向量提取层,将词和词的位置信息映射为词向量;S2.2.2、建立卷积层,对文本进行分段卷积操作;S2.2.3、建立max池化层;S2.2.4、建立输出层,激活函数为softmax函数;采用DMCNN动态多池化卷积神经网络进行事件抽取时,模型的构建流程如下:S2.3.1、建立Embedding词向量提取层,将词和词的位置信息映射为词向量;S2.3.2、建立句子级特征提取层,具体包括:S2.3.2.1、建立卷积层,对文本进行分段卷积操作;S2.3.2.2、建立max池化层;S2.3.3、建立词汇级特征提取层;S2.3.4、将句子级特征提取层和词汇级特征提取层得到的向量合并;
S2.3.5、建立输出层,激活函数为softmax函数。5.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S3中本体融合具体包括以下内容:S3.1.1、导入待映射的本体,待映射的本体不一定都要转换为统一的本体语言格式,但是要保证本体中需要进行映射的成分能够被方便获取;S3.1.2、发现映射,基于术语的本体融合算法,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则;S3.1.3、表示映射,当本体之间的映射被找到后,需要将这些映射合理地表示起来。6.根据权利要求5所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S3.1.2中,基于术语的本体融合算法包括以下内容:术语对齐:对本体中的术语进行对齐,找出它们之间的对应关系。对齐方法采用字符串匹配、语义相似度计算;术语映射:根据对齐结果,对本体中的术语进行映射,即将不同本体中的术语映射到同一个术语上;结构合并:根据术语映射结果,对本体的结构进行合并,即将不同本体中的类、属性、实例等之间的关系进行合并;冲突解决:在合并过程中可能会出现冲突,如类之间的继承关系等;需要采用一定的方法来解决这些冲突;解决这些冲突的方法包括:人工干预:将冲突的本体交由人工进行决策,选择最合适的解决方案;权衡法:对于不同的解决方案进行评估,选择其中权值最大的方案;合并法:将两个本体中出现冲突的部分进行合并,得到一个新的本体;抛弃法:放弃其中一个本体或者某一部分的信息;转换法:将冲突的信息转换成另一种形式,使得它们不再冲突。7.根据权利要求5所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S3.1.3中,映射具体步骤如下:创建映射关系:根据术语对齐结果,创建不同本体中术语之间的映射关系;映射关系可以表示为一个矩阵,其中每一行表示一组映射关系;冲突解决:在创建映射关系的过程中可能会出现冲突,需要采用一定的方法来解决这些冲突;这里的方法和步骤S3.1.2中的冲突解决的方法一致;优化映射关系:通过使用一些算法对映射关系进行优化,如使用随机游走算法、生成对抗网络等;确定映射关系的优先级:根据不同的应用场景,确定映射关系的优先级,选择最合适的映射关系。8.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤S3中实体融合具体包括以下内容:S3.2.1、数据预处理,去除实体名称上的标点符号、进行同义词扩展等;S3.2.2、分块,通过启发式策略将不同知识图谱中相似实体分配到相同的块中,减少实体间两两比对的次数;
S3.2.3、实体对齐,其中成对对齐只根据一个实体对中的两个...

【专利技术属性】
技术研发人员:张怡章永
申请(专利权)人:麦博上海健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1