本申请公开了一种信息提取方法及装置、存储介质、计算机设备,该方法包括:获取任一待提取对象对应的至少一个病历文件,并将所述病历文件输入至预设分类模型中,得到每个所述病历文件对应的目标属性标签;基于每个所述病历文件对应的目标属性标签,确定目标提取结构,并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息;基于所述目标结构化信息,提取所述任一待提取对象对应的目标信息。本申请可以智能化、简单化地从患者的病历文件中提取出目标信息,大大提升了目标信息提取的效率,同时准确率也较高。率也较高。率也较高。
【技术实现步骤摘要】
一种信息提取方法及装置、存储介质、计算机设备
[0001]本申请涉及信息处理
,尤其是涉及到一种信息提取方法及装置、存储介质、计算机设备。
技术介绍
[0002]医疗技术的发展离不开不断积累的患者信息。例如,在医药进入临床试验阶段进行患者招募时,通常需要获取患者的病史、手术史、用药史等患者信息,以判断患者是否符合招募条件。可以说,有效的患者信息对于医疗技术发展具有不可替代的作用。
[0003]现有技术中,在从患者提供的病历文件中获取需要的患者信息时,通常由专业团队从患者提交的大量病历文件中获取有效线索,排除一些无效的线索,例如提交无效材料、年龄不符的等。之后由初审人员对有效线索进行初筛,初筛成功后再由复审人员进行复筛,复审人员在复筛过程中通过查看患者的医学材料,提取患者的用药史和手术史等患者信息,从而判断患者是否符合招募条件。然而这种方法效率低下,同时准确率也难以保证。
技术实现思路
[0004]有鉴于此,本申请提供了一种信息提取方法及装置、存储介质、计算机设备,可以智能化、简单化地从患者的病历文件中提取出目标信息,大大提升了目标信息提取的效率,同时准确率也较高。
[0005]根据本申请的一个方面,提供了一种信息提取方法,包括:
[0006]获取任一待提取对象对应的至少一个病历文件,并将所述病历文件输入至预设分类模型中,得到每个所述病历文件对应的目标属性标签;
[0007]基于每个所述病历文件对应的目标属性标签,确定目标提取结构,并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息;
[0008]基于所述目标结构化信息,提取所述任一待提取对象对应的目标信息。
[0009]根据本申请的另一方面,提供了一种信息提取装置,包括:
[0010]病历文件获取模块,用于获取任一待提取对象对应的至少一个病历文件,并将所述病历文件输入至预设分类模型中,得到每个所述病历文件对应的目标属性标签;
[0011]结构化信息提取模块,用于基于每个所述病历文件对应的目标属性标签,确定目标提取结构,并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息;
[0012]信息提取模块,用于基于所述目标结构化信息,提取所述任一待提取对象对应的目标信息。
[0013]依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述信息提取方法。
[0014]依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在
存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述信息提取方法。
[0015]借由上述技术方案,本申请提供的一种信息提取方法及装置、存储介质、计算机设备,在对目标信息进行提取之前,首先可以获取想要提取信息的待提取对象的一个或者多个病历文件,其中,每个病历文件中记录的信息都是以电子版文字的方式记录的,也即病历文件中包括可以直接被读取的文字信息。接着,可以将病历文件输入到预设分类模型中,通过预设分类模型对每个病历文件进行识别,得到每个病历文件对应的目标属性标签。当确定了每个病历文件对应的目标属性标签之后,可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签,其对应的目标提取结构也是各不相同的。之后,可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取,从而得到目标结构化信息。得到每个病历文件对应的目标结构化信息之后,可以从该待提取对象对应的各个目标结构化信息中确定该待提取对象对应的目标信息。本申请实施例可以智能化、简单化地从患者的病历文件中提取出目标信息,大大提升了目标信息提取的效率,同时准确率也较高。
[0016]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0018]图1示出了本申请实施例提供的一种信息提取方法的流程示意图;
[0019]图2示出了本申请实施例提供的另一种信息提取方法的流程示意图;
[0020]图3示出了本申请实施例提供的一种信息提取装置的结构示意图。
具体实施方式
[0021]下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0022]在本实施例中提供了一种信息提取方法,如图1所示,该方法包括:
[0023]步骤101,获取任一待提取对象对应的至少一个病历文件,并将所述病历文件输入至预设分类模型中,得到每个所述病历文件对应的目标属性标签;
[0024]本申请实施例提供的信息提取方法,可以应用于客户端一侧,也可以应用于服务器一侧。在对目标信息进行提取之前,首先可以获取想要提取信息的待提取对象的一个或者多个病历文件,其中,每个病历文件中记录的信息都是以电子版文字的方式记录的,也即病历文件中包括可以直接被读取的文字信息,待提取对象可以是患者本人。接着,可以将病历文件输入到预设分类模型中,通过预设分类模型对每个病历文件进行识别,得到每个病历文件对应的目标属性标签。在这里,目标属性标签可以是“出院记录”、“入院记录”、“ct报告”、“病理报告”、“其它”等。通常来说,每个病历文件对应着患者纸质病历本上一页的信息,而每一页信息实际上对应的是同一种类型,这样经过预设分类模型的分类即可准确确
定该病历文件对应的目标属性标签。但是当某个病历文件包含病历本上至少两页上的信息时,此时通过预设分类模型的分类后,输出的目标属性标签可以是“其它”。
[0025]步骤102,基于每个所述病历文件对应的目标属性标签,确定目标提取结构,并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息;
[0026]在该实施例中,当确定了每个病历文件对应的目标属性标签之后,可以进一步确定该目标属性标签对应的目标提取结构。针对不同的目标属性标签,其对应的目标提取结构也是各不相同的。例如,当目标属性标签是“病理报告”时,目标提取结构可以是“病理诊断+临床诊断+免疫组化+肉眼所见+患者基础信息”等;当目标属性标签是“入院记录”时,目标提取结构可以是“患者基础信息+入院日期+主诉+现病史+既往史+家族史+诊断”等。之后,可以按照目标提取结构对该目标属性标签对应的病历文件进行信息提取,从而得到目标结构化信息。
[0027]例如,当目标属性标签是“入院记录”,对应的目标提取结构是“患者基础信息+入院日期+主诉+现病史+既往史+家族史+诊断”时,此时可以将“入院记录”对应的病历文件本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取任一待提取对象对应的至少一个病历文件,并将所述病历文件输入至预设分类模型中,得到每个所述病历文件对应的目标属性标签;基于每个所述病历文件对应的目标属性标签,确定目标提取结构,并依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息;基于所述目标结构化信息,提取所述任一待提取对象对应的目标信息。2.根据权利要求1所述的方法,其特征在于,所述基于每个所述病历文件对应的目标属性标签,确定目标提取结构之前,所述方法还包括:确定至少一个预设属性标签,并从不同的信息需求方获取每个所述预设属性标签对应的需求结构字段;构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系;所述基于每个所述病历文件对应的目标属性标签,确定目标提取结构,包括:确定目标信息需求方,并基于每个所述病历文件对应的目标属性标签以及所述目标信息需求方,从所述映射关系中确定所述目标属性标签对应的目标需求结构字段,并基于所述目标需求结构字段确定所述目标提取结构。3.根据权利要求2所述的方法,其特征在于,所述构建每个所述预设属性标签、所述信息需求方以及所述需求结构字段之间的映射关系之后,所述方法还包括:基于所述映射关系中包含的任一需求结构字段,通过语义分析模型确定所述任一需求结构字段与预设字段数据库中每个预设字段之间的语义相似值;将所述语义相似值大于预设阈值的所述预设字段作为所述任一需求结构字段对应的扩充字段,并记录在所述映射关系中。4.根据权利要求3所述的方法,其特征在于,所述依据所述目标提取结构对所述目标属性标签对应的所述病历文件进行信息提取,得到目标结构化信息,包括:基于所述目标提取结构中的每个所述目标需求结构字段,从所述目标属性标签对应的所述病历文件中提取每个所述目标需求结构字段对应的第一信息;从所述映射关系中确定每个所述目标需求结构字段对应的扩充字段,从所述目标属性标签对应的所述病历文件中提取每个所述扩充字段对应的第二信息;对每个所述目标需求结构字段对应的所述第一信息以及所述第二信息进行聚合处理,得到所述目标需求结构字段对应的目标信息,并基于所述目标需求结构字段以及所述目标信息,生成所述目标结构化信息...
【专利技术属性】
技术研发人员:黄平,黄明星,毛小伟,蒋佳佳,沈鹏,
申请(专利权)人:北京健康之家科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。