电子病历的文本关系提取方法、装置、设备及介质制造方法及图纸

技术编号:38400792 阅读:6 留言:0更新日期:2023-08-07 11:12
本申请涉及一种电子病历的文本关系提取方法、装置、设备及介质。该方法对目标电子病历的文本进行提取,对提取得到目标文本进行分词,编码所有分词得到每个分词的目标词向量,使用语义提取模型对所有的目标词向量进行语义提取得到语义特征,使用依赖关系解析器对所有语义特征进行依赖关系提取得到邻接矩阵,结合语义特征作为图节点,构建所有图节点的连接边得到初始图数据,使用图卷积网络提取初始图数据中任两个图节点之间隐含关系,使用隐含关系更新初始图数据得到完整图数据,根据分词与完整图数据中图节点的映射关系,得到分词间的连接关系,基于依赖关系的提取和隐含关系的提取,从而得到较为完整的连接关系,提高了关系提取的准确性。提取的准确性。提取的准确性。

【技术实现步骤摘要】
电子病历的文本关系提取方法、装置、设备及介质


[0001]本申请适用于人工智能
,尤其涉及一种电子病历的文本关系提取方法、装置、设备及介质。

技术介绍

[0002]目前,电子病历(Electronic Medical Records,EMR)产生于患者在医疗机构就诊的过程中,因此,每天都会有大量的电子病历数据产生。由于电子病历中包含着大量的医学知识以及病人的健康资料,通过研究和挖掘电子病历,能够快速准确地获取与病人有关的医疗信息,这种信息可以帮助医疗专业人员尽快了解患者的疾病状态,能够用于建立医学决策支持系统以及个性化卫生服务平台。文本信息提取主要包含命名实体提取以及实体间关系的提取,在电子病历中,医疗信息提取是指自动识别电子病历文件中的医疗信息,各种命名实体以及实体之间的关系,同时,电子病历中的医疗实体识别和实体关系提取是医疗信息提取工作中的重点任务。
[0003]与开放领域的文本相比,电子病历并不是完全结构化的数据,包含了许多自由文本等复杂的无结构数据,这对科学研究和统计分析造成了巨大障碍。其中,电子病历还包含了大量的生僻词和字、错别字、半结构化的内容组织方式、简略且模式化较强的语言表达,同时,由于医生的书写习惯和专业知识的原因,对于同一内容,不同医生的文本描述存在明显差异,有时甚至存在书写错误。这些特点使命名实体识别和实体关系提取任务成为挑战。另外,由于电子病历语言具有专业性强的特点,在语料构建工作中造成了巨大的障碍。当前大部分电子病历信息提取模型使用循环神经网络,虽然循环网络可以很好的处理序列数据,但是不能像图卷积神经网络那样处理局部区域附近的信息,因而整体的提取性能较差。因此,如何提取电子病历中文本的完整关系,以提高关系提取的准确性成为亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种电子病历的文本关系提取方法、装置、设备及介质,以解决如何提取电子病历中文本的完整关系,以提高关系提取的准确性的问题。
[0005]第一方面,本申请实施例提供一种电子病历的文本关系提取方法,所述文本关系提取方法包括:
[0006]获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
[0007]使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
[0008]使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩
阵,构建所有图节点的连接边,得到初始图数据;
[0009]使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
[0010]根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
[0011]在一实施方式中,编码所有分词得到每个分词的目标词向量包括:
[0012]识别所述N个分词的词性;
[0013]针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
[0014]在一实施方式中,将所述分词及其词性进行向量编码包括:
[0015]将所述分词的词性标注在所述分词上,得到标注后的分词;
[0016]使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。
[0017]在一实施方式中,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据包括:
[0018]根据所述邻接矩阵,构建所有图节点的连接边;
[0019]根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
[0020]将所述关系得分和所述得分概率作为节点信息存入对应的两个图节点中,得到包含所述节点信息和所有图节点的连接边的初始图数据。
[0021]在一实施方式中,使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系包括:
[0022]使用图卷积网络提取所述初始图数据中任两个通过其他图节点连接的图节点;
[0023]根据所述其他图节点的节点信息和所述任两个图节点的节点信息,预测所述任两个图节点的关系得分和得分概率;
[0024]若所述任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定所述任两个图节点之间具备隐含关系。
[0025]在一实施方式中,在根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系之后,还包括:
[0026]基于所述N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
[0027]获取待生成文本的至少一个关键词;
[0028]将所述至少一个关键词输入所述训练好的文本生成模型,输出对应的生成文本。
[0029]第二方面,本申请实施例提供一种电子病历的文本关系提取装置,所述文本关系提取装置包括:
[0030]编码模块,用于获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
[0031]语义提取模块,用于使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
[0032]初始图构建模块,用于使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;
[0033]完整图构建模块,用于使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
[0034]关系提取模块,用于根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
[0035]在一实施方式中,所述编码模块包括:
[0036]词性识别单元,用于识别所述N个分词的词性;
[0037]编码单元,用于针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
[0038]在一实施方式中,所述编码单元包括:
[0039]标注子单元,用于将所述分词的词性标注在所述分词上,得到标注后的分词;
[0040]编码子单元,用于使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。
[0041]在一实施方式中,所述初始图构建模块包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子病历的文本关系提取方法,其特征在于,所述文本关系提取方法包括:获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。2.根据权利要求1所述的文本关系提取方法,其特征在于,编码所有分词得到每个分词的目标词向量包括:识别所述N个分词的词性;针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。3.根据权利要求2所述的文本关系提取方法,其特征在于,将所述分词及其词性进行向量编码包括:将所述分词的词性标注在所述分词上,得到标注后的分词;使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。4.根据权利要求1所述的文本关系提取方法,其特征在于,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据包括:根据所述邻接矩阵,构建所有图节点的连接边;根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;将所述关系得分和所述得分概率作为节点信息存入对应的两个图节点中,得到包含所述节点信息和所有图节点的连接边的初始图数据。5.根据权利要求4所述的文本关系提取方法,其特征在于,使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系包括:使用图卷积网络提取所述初始图数据中任两个通过其他图节点连接的图节点;根据所述其他图节点的节点信息和所述任两个图节点的节点信息,预测所述任两个图节点的关系得分和得分概率;若所述任两个图节点的...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1