当前位置: 首页 > 专利查询>清华大学专利>正文

中文电子病历命名实体抽取方法及系统技术方案

技术编号:21658888 阅读:75 留言:0更新日期:2019-07-20 05:41
本发明专利技术公开了一种中文电子病历命名实体抽取方法及系统。该方法包括:通过字符嵌入层将输入语句中的每个字映射为一个向量;采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;采用深度残差网络作为输出解码层,解码出命名实体链。本发明专利技术中文电子病历命名实体抽取方法及系统可以自动从中文电子病历中抽取各种医学命名实体,且提高了抽取效率,免去了病历结构化过程中人工消耗。

Named Entity Extraction Method and System for Chinese Electronic Medical Records

【技术实现步骤摘要】
中文电子病历命名实体抽取方法及系统
本专利技术属于医疗文本数据挖掘
,特别是涉及一种中文电子病历命名实体抽取方法及系统,尤其用于一种名为多系统萎缩的罕见病的中文电子病历文本医学命名实体的识别和提取。
技术介绍
一方面,近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历,从而累积了越来越多的电子病历。常规的电子病历中,信息的主要载体是自然语言,比如,影像报告、用药记录、病程报告和病例检查报告等。可以说,这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。另一方面,随着以大数据、人工智能为代表的信息技术与医学的深度融合,催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是,这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。通常医院无法直接使用电子病历中的信息、更无法使其服务于临床。临床电子病历设计的初衷是面向记录,而不是面向研究,也就是说,医生会把临床的所有的情况原原本本地记录下来,但却并没有针对信息做面向研究和应用的加工处理。这样一来,临床电子病历大部分都是自然语言,这种文本信息放到计算机里无法进行任何形式的计算,所以首先要做的是数据结构化。也就是说,现实中的病历数据大都是非结构化的。正因为如此,将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大,若依靠人工来进行结构化,其经济成本无疑将十分高昂。所以,利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。电子病历的命名实体识别(NamedEntityRecognition,NER),是读入电子病历文本,识别和抽取出与医学临床相关的实体,结合数据源“现病史记录”的内容及特点,将它们归类到预定义类别。在电子病历结构化过程中,从病例文本提取出各种医学关心的概念类(症状、时间、部位、程度等等)是一个关键问题。一些疾病的名称,医院里甚至有上百种表达方式。所以,要从整段的自然语言文本里提出数据,如果没有技术支撑,需要巨大的人力投入。中文电子病历的命名实体识别的初衷在此。医学信息抽取系统是病例结构化系统的子系统,一种可以自动将症状、时间、修饰符、治疗方式和诊断结果提取出来的系统,对于病例结构化系统的性能有重大影响。信息提取的准确性对于后续医疗数据分析流程有着基础性的影响。因此,一个好的信息提取系统可以帮助提高病例结构化的准确性,也能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。目前尚无针对罕见病电子病历进行专门优化的医学命名实体识别并抽取的方法和系统。
技术实现思路
基于上述问题,本专利技术目的在于提供一种中文电子病历命名实体抽取方法,尤其是用于对罕见病电子病历进行专门优化的医学命名实体的识别和抽取;以提高抽取效率,免去病历结构化过程中人工消耗。本专利技术的另一目的在于提供一种中文电子病历命名实体抽取系统。上述目的是通过以下技术方案实现的:根据本专利技术的一个方面,本专利技术提供的一种中文电子病历命名实体抽取方法,包括以下步骤:步骤一,通过字符嵌入层将输入语句中的每个字映射为一个向量;步骤二,采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;步骤三,采用深度残差网络作为输出解码层,解码出命名实体链。优选地,步骤二中,所述LSTM模型如下:长-短时记忆网络:其中,ct和ht分别表示第t个时间步的内在状态和输出状态;xt表示第t个时间步输入到模型的字向量;模型输入的字符序列为C=(c1,c2,...,cn)。进一步地,步骤二中,计算方法如下:网格:其中:xb,e:=(xb,xb+1,…,xe)其中,wb,e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格,b∈{1,2,…,n},e∈{1,2,…,n};Ab-1表示序列中第b-1个位置上字符在经过自注意力层后的输出值。更进一步地,步骤二中,线性组合中的权重由自注意力机制给出的注意力值给出,在模型训练中,通过反向传播不断调整模型参数,得到合理权重分配;注意力机制模型由下式表示:其中,Ae-w,e-1、xe-w+1,e分别为注意力机制模型的状态输入量和字符向量输入,Ae为注意力机制模型的输出,即表示序列中第t个位置上字符在经过自注意力层后的输出值;然后,得到每个输入句子的编码作为深度残差网络模块层的输入;其中,A=(A1,A2,…,An),n为输入句子的长度;A1,A2,…,An表示第1,2,…n个字的注意力机制模型的输出。优选地,在步骤二中,网格wb,e的计算方法如下:长-短时记忆网络:初始状态:(cb-1;hb-1)=(Cb-1;Hb-1)输出状态:(cb,e;hb,e)=(ce;he)其中:wb,e:=Concat(cb,e,hb,e)At:=Concat(Ct,Ht)其中,t∈{1,2,…,n},b∈{1,2,…,n},e∈{1,2,…,n},wb,e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格,cb-1和hb-1表示第b-1个时间步的内在状态和输出状态,Cb-1和Hb-1分别表示构成Ab-1的两部分向量,b-1表示第b-1个时间步上的对应向量;cb,e和hb,e表示字序列中从第b个到第e个之间的字符子串中每个字符依次输入到模型后,得到的最末内在状态和最末输出状态,也即第e个内在状态和输出状态,ce和he表示第e个时间步的内在状态和输出状态;其中,序列中第t个位置上字符在经过自注意力机制后的输出值At表示为:At:=Concat(Ct,Ht);其中,Ct和Ht分别表示构成At的两部分向量,t表示第t个时间步上的对应向量,每个At分别由内在状态向量Ct和输出状态向量Ht构成。更优选地,所述自注意力机制控制信息流动方向的计算公式如下:其中,Query、Key、Value表示自注意力模块的三个输入矩阵,dk表示矩阵Query的列数;所述自注意力机制为多头注意力机制,多头注意力机制模型如下:MultiHead(Q,K,V)=Concat(head1,head2,…,headh)·WO其中:Q=K=V=X=(we,e,we-1,e,we-2,e,…,we-w+1,e)Ae=Tanh(Relu(MultiHead(Q,K,V))·Watt)模型中,h表示并行自注意力层数;权重参数矩阵则n是输入网格的数目;模型输入和输出的维数为dmodel,每个独立的自注意力层的dq=dk=dv=dmodel/h;优选地,在步骤三中,所述深度残差网络中包含两种映射,其中,一种是恒等映射x,表示其本身;另一种是残差映射F(x),且所述F(x)为长短时记忆网络;所述深度残差网络最后输出为H(x)=F(x)+x。进一步地,所述深度残差网络利用语境的高层语义特征进行校正分类,包括:通过LSTM层提取抽象的局部语义特征,对分类概率进行校正步骤;以及通过softmax层将高层的语义特征变换为预定义类别的概率步骤。更进一步地,所述LSTM层包括两个输入,一个是初始状态,另一个是待处理的时间序列,计算公式如下:LSTM:(0;0;A本文档来自技高网
...

【技术保护点】
1.一种中文电子病历命名实体抽取方法,其特征在于,该方法包括以下步骤:步骤一,通过字符嵌入层将输入语句中的每个字映射为一个向量;步骤二,采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;步骤三,采用深度残差网络作为输出解码层,解码出命名实体链。

【技术特征摘要】
1.一种中文电子病历命名实体抽取方法,其特征在于,该方法包括以下步骤:步骤一,通过字符嵌入层将输入语句中的每个字映射为一个向量;步骤二,采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;步骤三,采用深度残差网络作为输出解码层,解码出命名实体链。2.根据权利要求1所述的中文电子病历命名实体抽取方法,其特征在于,步骤二中,所述LSTM模型为:其中,ct和ht分别表示第t个时间步的内在状态和输出状态;xt表示第t个时间步输入到模型的字向量;模型输入的字符序列为C=(c1,c2,...,cn)。3.根据权利要求2所述的中文电子病历命名实体抽取方法,其特征在于,步骤二中,计算方法如下:网格:其中:xb,e:=(xb,xb+1,…,xe)其中,wb,e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格,b∈{1,2,…,n},e∈{1,2,…,n};Ab-1表示序列中第b-1个位置上字符在经过自注意力层后的输出值。4.根据权利要求3所述的中文电子病历命名实体抽取方法,其特征在于,步骤二中,线性组合中的权重由自注意力机制给出的注意力值给出,在模型训练中,通过反向传播不断调整模型参数,得到合理权重分配;其中,注意力机制模型由下式表示:其中,Ae-w,e-1、xe-w+1,e分别为注意力机制模型的状态输入量和字符向量输入,Ae为注意力机制模型的输出,表示序列中第e个位置上字符在经过自注意力层后的输出值;然后,得到每个输入句子的编码作为深度残差网络模块层的输入;其中,A=(A1,A2,…,An),n为输入句子的长度,A1,A2,…,An表示第1,2,…n个字的注意力机制模型的输出。5.根据权利要求2所述的中文电子病历命名实体抽取方法,其特征在于,在步骤二中,网格wb,e的计算方法如下:长-短时记忆网络:初始状态:(cb-1;hb-1)=(Cb-1;Hb-1)输出状态:(cb,e;hb,e)=(ce;he)其中:wb,e:=Concat(cb,e,hb,e)At:=Concat(Ct,Ht)其中,t∈{1,2,…,n},b∈{1,2,…,n},e∈{1,2,…,n};wb,e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格;cb-1和hb-1表示第b-1个时间步的内在状态和输出状态,Cb-1和Hb-1分别表示构成Ab-1的两部分向量,b-1表示第b-1个时间步上的对应向量;cb,e和hb,e表示字序列中从第b个到第e个之间的字符子串中每个字符依次输入到模型后,得到的最末内在状态和最末输出状态,也即第e个内在状态和输出状态,ce和he表示第e个时间步的内在状态和输出状态;序列中第t个位置上字符在经过自注意力机制后的输出值At表示为:At:=C...

【专利技术属性】
技术研发人员:江瑞黄浩
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1