中文电子病历命名实体抽取方法及系统技术方案

技术编号：21658888 阅读：75 留言：0更新日期：2019-07-20 05:41

本发明专利技术公开了一种中文电子病历命名实体抽取方法及系统。该方法包括：通过字符嵌入层将输入语句中的每个字映射为一个向量；采用LSTM模型输入字符序列，获得隐表示向量；将每个字作为以该字为结尾的语义单位的最后一个字，进行语义分割，得到该字对应的所有网格编码；将每个字的所有网格编码进行线性组合，得到最后的每个字符的向量，其中，线性组合中的权重由自注意力机制给出；采用深度残差网络作为输出解码层，解码出命名实体链。本发明专利技术中文电子病历命名实体抽取方法及系统可以自动从中文电子病历中抽取各种医学命名实体，且提高了抽取效率，免去了病历结构化过程中人工消耗。

Named Entity Extraction Method and System for Chinese Electronic Medical Records

全部详细技术资料下载

【技术实现步骤摘要】
中文电子病历命名实体抽取方法及系统
本专利技术属于医疗文本数据挖掘
，特别是涉及一种中文电子病历命名实体抽取方法及系统，尤其用于一种名为多系统萎缩的罕见病的中文电子病历文本医学命名实体的识别和提取。
技术介绍
一方面，近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历，从而累积了越来越多的电子病历。常规的电子病历中，信息的主要载体是自然语言，比如，影像报告、用药记录、病程报告和病例检查报告等。可以说，这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。另一方面，随着以大数据、人工智能为代表的信息技术与医学的深度融合，催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是，这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。通常医院无法直接使用电子病历中的信息、更无法使其服务于临床。临床电子病历设计的初衷是面向记录，而不是面向研究，也就是说，医生会把临床的所有的情况原原本本地记录下来，但却并没有针对信息做面向研究和应用的加工处理。这样一来，临床电子病历大部分都是自然语言，这种文本信息放到计算机里无法进行任何形式的计算，所以首先要做的是数据结构化。也就是说，现实中的病历数据大都是非结构化的。正因为如此，将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大，若依靠人工来进行结构化，其经济成本无疑将十分高昂。所以，利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。电子病历的命名实体识别(NamedEntityRecognition,NER)，是读入电子病历文...

【技术保护点】
1.一种中文电子病历命名实体抽取方法，其特征在于，该方法包括以下步骤：步骤一，通过字符嵌入层将输入语句中的每个字映射为一个向量；步骤二，采用LSTM模型输入字符序列，获得隐表示向量；将每个字作为以该字为结尾的语义单位的最后一个字，进行语义分割，得到该字对应的所有网格编码；将每个字的所有网格编码进行线性组合，得到最后的每个字符的向量，其中，线性组合中的权重由自注意力机制给出；步骤三，采用深度残差网络作为输出解码层，解码出命名实体链。

【技术特征摘要】
1.一种中文电子病历命名实体抽取方法，其特征在于，该方法包括以下步骤：步骤一，通过字符嵌入层将输入语句中的每个字映射为一个向量；步骤二，采用LSTM模型输入字符序列，获得隐表示向量；将每个字作为以该字为结尾的语义单位的最后一个字，进行语义分割，得到该字对应的所有网格编码；将每个字的所有网格编码进行线性组合，得到最后的每个字符的向量，其中，线性组合中的权重由自注意力机制给出；步骤三，采用深度残差网络作为输出解码层，解码出命名实体链。2.根据权利要求1所述的中文电子病历命名实体抽取方法，其特征在于，步骤二中，所述LSTM模型为：其中，ct和ht分别表示第t个时间步的内在状态和输出状态；xt表示第t个时间步输入到模型的字向量；模型输入的字符序列为C＝(c1，c2，...，cn)。3.根据权利要求2所述的中文电子病历命名实体抽取方法，其特征在于，步骤二中，计算方法如下：网格：其中：xb，e：＝(xb，xb+1，…，xe)其中，wb，e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格，b∈{1，2，…，n}，e∈{1，2，…，n}；Ab-1表示序列中第b-1个位置上字符在经过自注意力层后的输出值。4.根据权利要求3所述的中文电子病历命名实体抽取方法，其特征在于，步骤二中，线性组合中的权重由自注意力机制给出的注意力值给出，在模型训练中，通过反向传播不断调整模型参数，得到合理权重分配；其中，注意力机制模型由下式表示：其中，Ae-w，e-1、xe-w+1，e分别为注意力机制模型的状态输入量和字符向量输入，Ae为注意力机制模型的输出，表示序列中第e个位置上字符在经过自注意力层后的输出值；然后，得到每个输入句子的编码作为深度残差网络模块层的输入；其中，A＝(A1，A2，…，An)，n为输入句子的长度，A1，A2，…，An表示第1，2，…n个字的注意力机制模型的输出。5.根据权利要求2所述的中文电子病历命名实体抽取方法，其特征在于，在步骤二中，网格wb，e的计算方法如下：长-短时记忆网络：初始状态：(cb-1；hb-1)＝(Cb-1；Hb-1)输出状态：(cb，e；hb，e)＝(ce；he)其中：wb，e：＝Concat(cb，e，hb，e)At：＝Concat(Ct，Ht)其中，t∈{1，2，…，n}，b∈{1，2，…，n}，e∈{1，2，…，n}；wb,e表示字符序列中第b个到第e个字符构成的连续字符串所形成的网格；cb-1和hb-1表示第b-1个时间步的内在状态和输出状态，Cb-1和Hb-1分别表示构成Ab-1的两部分向量，b-1表示第b-1个时间步上的对应向量；cb，e和hb,e表示字序列中从第b个到第e个之间的字符子串中每个字符依次输入到模型后，得到的最末内在状态和最末输出状态，也即第e个内在状态和输出状态，ce和he表示第e个时间步的内在状态和输出状态；序列中第t个位置上字符在经过自注意力机制后的输出值At表示为：At：＝C...

【专利技术属性】
技术研发人员：江瑞，黄浩，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人