电子病历实体关系抽取方法及装置制造方法及图纸

技术编号:14680900 阅读:126 留言:0更新日期:2017-02-22 14:04
本公开公开一种电子病历实体关系抽取方法及装置,属于医疗数据挖掘领域。该方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。这样,利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。

【技术实现步骤摘要】

本公开涉及医疗数据挖掘领域,具体地,涉及一种电子病历实体关系抽取方法及装置
技术介绍
随着信息时代数据量的爆炸式增长,临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域,以自然语言文本形式存在的电子病历数据占有重要地位。在这种背景下,使用计算机从非结构化的电子病历文本数据中自动抽取出结构化的信息,即信息抽取技术,受到了广泛的关注,具有重要的应用价值。电子病历实体关系抽取是其信息提取的核心任务。目前,用于文本实体关系抽取主要是有监督方法,这类方法将实体关系抽取视为一个分类问题,将句子中实体之间的关系划分到预先定义好的类别中,从而完成关系抽取任务。这类方法有两个主流研究方向:(a)人工提取特征,如词性、语义角色、依存句法树等,然后使用支持向量机或者最大熵等分类器进行分类;(b)基于核函数的方法,计算输入字符的核函数,根据核函数的相似度来判定关系类型。但是,由于这些方法的分类性能很大程度上依赖于基础自然语言处理工具,如词性标注、语法分析等,至少存在以下缺陷:(1)这些基础工具都存在错误;(2)特征集的选择依靠经验和专家知识;(3)有些语言没有完善的基础处理工具。
技术实现思路
本公开的目的是提供一种电子病历实体关系抽取方法及装置,能够挖掘出电子病历中实体之间的关系。为了实现上述目的,本公开提供一种电子病历实体关系抽取方法,所述方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。可选地,所述通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵的步骤包括:分割每条电子病历自然语句的词;将每个词映射为一个m维的向量;将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。可选地,在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量的步骤之前,所述方法还包括:滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。可选地,在所述滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前,所述方法还包括:设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。可选地,所述利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数的步骤包括:选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。此外,为实现上述目的,本公开还提供一种电子病历实体关系抽取装置,所述装置包括:矩阵获取模块,用于通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;计算模块,用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;抽取模块,用于将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。可选地,所述矩阵获取模块包括:分割子模块,用于分割每条电子病历自然语句的词;映射子模块,用于将每个词映射为一个m维的向量;矩阵输出子模块,用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。可选地,所述装置还包括:卷积模块,用于滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;特征计算模块,用于根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;参数计算模块,用于利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。可选地,所述装置还包括:设置模块,用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。可选地,所述参数计算模块包括:分类标注子模块,用于选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;参数计算子模块,用于根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。通过上述技术方案,通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵,将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量,将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。这样,利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图;图2是本公开一实施例提供的获取电子病历自然语句映射后的矩阵的流程示意图;图3是本公开另一实施例提供的电子病历实体关系抽取方法的流程示意图;图4是本公开一实施例提供的对所述卷积神经网络模型进行训练的流程示意图;图5是本公开一实施例提供的电子病历实体关系抽取装置的框图;图6是本公开一实施例提供的矩阵获取模块的框图;图7是本公开另一实施例提供的电子病历实体关系抽取装置的框图;图8是本公开一实施例提供的参数计算模块的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。本公开提出的电子病历实体关系抽取方法及装置是基于卷积神经网络。所谓卷积神经网是一种特殊的深层神经网络,也是第一个成功应用的深层网络模型。卷积神经网利用空间相对关系减少参数数目,成为当今很多计算机视觉系统,如图像识别、自动驾驶等的核心部分。卷积的概念来自于数字信号处理,一维形式的卷积定义如下:公式(1)的物理含义是一个信号通过一个系统后的输出形式,数学形式上是求信号的加权平均值。二维形式的卷积定义如下:二维卷积常用于图像处理,在公式(2)中,f(x,y)是图像上点的灰度值,w(x,y)则是卷积核,也称为滤波器。卷积操作就相当于将图像通过滤波器进行滤波。在卷积神经网络中,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介,同一个卷积核在所有图像内是共享的。卷积神经网络每层都由特征提取层和其后用来求局部平均与二次提取的计算层,这种特有的两层特征提取结构使网络在识别时有较高的畸变容忍能力。卷积神经网有三个主要优点:一是通过权值共享机制,减少了网络参数;二是卷积的操作非常快;三是通过下采样机制,使得提取的特征具有旋转不变性和平移不变性。卷积神经网几乎覆盖所有识别和检测任务。图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图。请参照图1,所述方法可以包括以下步骤。在步骤S110中,通过卷本文档来自技高网...
电子病历实体关系抽取方法及装置

【技术保护点】
一种电子病历实体关系抽取方法,其特征在于,所述方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。

【技术特征摘要】
1.一种电子病历实体关系抽取方法,其特征在于,所述方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。2.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵的步骤包括:分割每条电子病历自然语句的词;将每个词映射为一个m维的向量;将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。3.根据权利要求1所述的方法,其特征在于,在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量的步骤之前,所述方法还包括:滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。4.根据权利要求3所述的方法,其特征在于,在所述滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前,所述方法还包括:设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。5.根据权利要求3所述的方法,其特征在于,所述利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数的步骤包括:选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;根据所述分类批注和经过最大池化层得到的特...

【专利技术属性】
技术研发人员:黄亦谦
申请(专利权)人:北京千安哲信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1