一种用于识别病历的疾病类型的模型的构建方法及应用技术

技术编号:24290688 阅读:47 留言:0更新日期:2020-05-26 20:31
本发明专利技术实施例公开了一种用于对病历的疾病类型进行识别的模型的构建方法及应用,所述方法包括:A、获取指定数量患者的各类病历信息;B、对所述各类病历信息分别进行特征提取;C、将提取的各类病历信息的特征进行连接以获取每位患者的整体的病历特征;D、将所述每位患者的整体的病历特征输入至Soft‑max分类器中进行分类训练,以获取用于对病历进行病历类型识别的神经网络模型。由上,本申请的方法构建的模型可以准确快速有效地实现对病历的疾病类型的识别。

The method and application of a model for identifying disease types in medical records

【技术实现步骤摘要】
一种用于识别病历的疾病类型的模型的构建方法及应用
本专利技术涉及纳米材料领域,具体涉及一种用于识别病历的疾病类型的模型的构建方法及应用。
技术介绍
结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据;反之,非结构化数据是指不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。其中,结构化数据内容遵循固定的格式,比较容易查询和处理。非结构化数据,由于占用内存交大和大小的不一致性,以及文件的性质导致对其存储和处理都不如结构化数据方便。医疗行业信息化程度高,但也存在大量非结构化数据,严重影响临床医疗数据的数据处理和使用,导致医疗数据的利用率并不高,目前医疗数据的结构化势在必行,但是由于不同的疾病存在着明显区别,所以病历的结构化方式也有很大差异,采用通用结构化方式就会造成大量的结构冗余,不能满足不同疾病的个性化特点。因此,对病历的疾病类型的识别,对整份病历的结构化起着至关重要的作用。目前,对病历疾病类型识别的方法通常分为两种:1、由专业的医学人员去人工读病历,作出疾病类型的判断;2、基于专业的医学知识,制定一些用于疾病确认的强规则来作出对疾病类型的判断。其中,前者需要花费大量的人力,并且产能完全无法匹配海量的病历数据;后者也需要人工花费时间去设计,评估,同时由于病历描述的多样性,规则的泛化能力很弱,维护起来非常困难。因此,目前亟需一种用于对病历进行疾病类型识别的系统及应用,以实现准确快速有效地对病历的疾病类型的识别。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供了一种用于识别病历的疾病类型的模型的构建方法及应用,以实现准确快速有效地对病历的疾病类型的识别。本专利技术提供的一种用于识别病历的疾病类型的模型的构建方法,包括:A、获取指定数量患者的各类病历信息;B、对所述各类病历信息分别进行特征提取;C、将提取的各类病历信息的特征进行连接以获取每位患者的整体的病历特征;D、将所述每位患者的整体的病历特征输入至Soft-max分类器中进行分类训练,以获取用于对病历进行病历类型识别的神经网络模型。由上,本申请在训练获取对病历类型继续识别的神经网络模型时,考虑了同一患者存在不同类型的各类病历信息,本申请分别对各类病历信息进行特征提取,并将提取后的各类病历信息整合后进行分类训练,从而使得获取得到的神经网络模型可以实现准确快速有效地对病历的疾病类型的识别。优选地,所述步骤A,包括:A1、获取指定数量患者的病历;A2、对所述病历中的各类病历信息分别进行定位;A3、对定位后的各类病历信息分别进行提取;A4、对提取后的各类病历信息分别进行预处理。由上,有利于获取指定数量患者的各类病历信息。优选地,所述病历信息的类型至少包括但不限于以下其一:病理描述、病理诊断、出院诊断、出院小结。由上,所述病历信息的类型并不限于上述4类,还可以是其他的与病历信息有关的病历信息。优选地,所述步骤B,包括:B1、对各类病历信息的原始文本分别进行向量化处理,将所述原始文本转换成one-hot独热特征向量;B2、将所述one-hot独热特征向量,通过一指定大小的矩阵映射转换为长度为所述原始文本长度的矩阵;B3、分别采用不同窗口大小的卷积核将所述长度为原始文本长度的矩阵处理生成一维卷积向量;B4、将所述卷积向量分段池化后进行拼接,得到各类病历信息的特征向量。由上,有利于更好地提取各类病历信息的特征。优选地,所述步骤B1,包括:B11、获取一病历库中所有病历的文本数据中出现的不同的字符,构建由所述字符组成的字典;B12、构建一与所述字典长度相同的全零向量;其中所述向量的每一维对应一字符;B13、将所述原始文本中出现的字符在所述向量中对应维度的值设置为1.0,以获取所述原始文本的one-hot独热特征向量。由上,通过上述步骤获取原始文本的one-hot独热特征向量,一方面解决了后续的分类器不好处理离散数据的问题,另一方面在一定程度上也起到了扩充特征向量的作用。优选地,步骤B3所述一维卷积向量的每个卷积向量的解析式为:其中,所述inputk表示第K个感受野内的输入的原始文本长度的矩阵;所述Wi表示第i个卷积核的参数;所述bias表示偏移量;所述Convi表示第i个卷积核的卷积向量。优选地,所述预处理至少包括但不限于一下其一:去噪处理及二值化处理。由上,去噪处理有利于消除图像中无关的信息,增强有关信息的可检测性,所述二值化处理有利于在对图像做进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压缩量小。基于上述方法构建的神经网络模型,本申请还提供一种对病历的疾病类型进行识别的方法,包括:N1、获取待识别病历;N2、将所述待识别病历进行预处理;N3、将所述预处理后的待识别病历输入至所述用于对病历进行病历类型识别的神经网络模型中,以获取所述待识别的原始病历单的疾病类型。由上,本申请有利于实现准确快速有效地对病历的疾病类型的识别。综上所述,本申请提供的一种用于对病历的疾病类型进行识别的模型的构建方法及基于该模型对病历的疾病类型进行识别的方法,实现了准确快速有效地对病历的疾病类型的识别。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的一种用于对病历的疾病类型进行识别的模型的构建方法的流程示意图;图2为本专利技术实施例的一种用于对病历疾病类型进行识别的方法的流程示意图;图3为本专利技术实施例的神经网络模型对疾病类型进行识别的流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的区间。实施例一如图1所示,本专利技术提供一种用于对病历的疾病类型进行识别的模型的构建方法,包括:S101,获取指定数量患者的各类病历信息。包括:S101.1,获取指定数量患者的病历。S101.2,对所述病历中的各类病历信息分别进行定位。具体的,所述病历信息的类型包括但不限于以下其一:病理描述、病理诊断、出院诊断、出院小结。通过关键词匹配或者模式匹配定位到各类本文档来自技高网
...

【技术保护点】
1.一种用于对病历的疾病类型进行识别的模型的构建方法,其特征在于,包括:/nA、获取指定数量患者的各类病历信息;/nB、对所述各类病历信息分别进行特征提取;/nC、将提取的各类病历信息的特征进行连接以获取每位患者的整体的病历特征;/nD、将所述每位患者的整体的病历特征输入至Soft-max分类器中进行分类训练,以获取用于对病历进行病历类型识别的神经网络模型。/n

【技术特征摘要】
1.一种用于对病历的疾病类型进行识别的模型的构建方法,其特征在于,包括:
A、获取指定数量患者的各类病历信息;
B、对所述各类病历信息分别进行特征提取;
C、将提取的各类病历信息的特征进行连接以获取每位患者的整体的病历特征;
D、将所述每位患者的整体的病历特征输入至Soft-max分类器中进行分类训练,以获取用于对病历进行病历类型识别的神经网络模型。


2.根据权利要求1所述的方法,其特征在于,所述步骤A,包括:
A1、获取指定数量患者的病历;
A2、对所述病历中的各类病历信息分别进行定位;
A3、对定位后的各类病历信息分别进行原始文本的提取;
A4、对提取后的各类病历信息分别进行预处理。


3.根据权利要求2所述的方法,其特征在于,所述病历信息的类型至少包括但不限于以下其一:
病理描述、病理诊断、出院诊断、出院小结。


4.根据权利要求1所述的方法,其特征在于,所述步骤B,包括:
B1、对各类病历信息的原始文本分别进行向量化处理,将所述原始文本转换成one-hot独热特征向量;
B2、将所述one-hot独热特征向量,通过一指定大小的矩阵映射转换为长度为所述原始文本长度的矩阵;
B3、分别采用不同窗口大小的卷积核将所述长度为原始文本长度的矩阵处理生成一维卷积向量;
B4...

【专利技术属性】
技术研发人员:罗立刚刘晓华罗翔凤赵丽艳康悦
申请(专利权)人:零氪医疗智能科技广州有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1