System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能领域及数字医疗领域,尤其涉及一种电子病历表格抽取的方法、装置、设备及介质。
技术介绍
1、随着医院信息化建设的不断完善,医院的各个业务系统都会产生大量的电子病历数据。这些数据是病人在医院就诊及治疗过程中所产生的重要记录,包含病历文本、医学图表、医学影像等多种类型数据。伴随着数据量的增长,数据抽取技术挖掘目标信息的有效手段,在形式各异的信息中,表格信息是文档中一种重要的数据表现形式,通常用于组织所描述对象的基本信息、统计数据等。
2、目前表格抽取方式是实体抽取+关系抽取逻辑计算,在信息较为复杂的环境下,由于来源图片拍摄不工整,经过ocr识别后,容易导致表格错位,进而无法理解坐标位置信息,使其抽取结果准确率不高,以此直接导致后续的实体抽取失败。例如,在医疗领域的电子病历表格,其具有复杂表头、多样化的项目类型,若表格的清晰程度太低,就会导致标注量变大,进而直接影响表格信息抽取的准确性。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种电子病历表格抽取的方法、装置、设备及介质,以解决在复杂表格中,抽取信息的效率以及准确率降低的问题。
2、本申请实施例的第一方面提供了一种电子病历表格抽取的方法,所述电子病历表格抽取的方法包括:
3、获取待处理的表格图片数据,对所述表格图片数据进行图像校正后,并进行ocr处理,提取所述表格图片数据对应的图片特征,其中,所述图片特征为所述表格图片数据中的文字位置坐标信息;
4、基于预
5、根据所述文字位置坐标信息和所述文本信息,确定所述表格图片数据对应的目标特征信息;
6、根据所述目标特征信息,将所述表格图片数据输入至可插拔的预训练语言模型中进行处理,以获取表格抽取结果。
7、本申请实施例的第二方面提供了一种电子病历表格抽取的装置,所述电子病历表格抽取的装置包括:
8、获取模块,用于获取待处理的表格图片数据,对所述表格图片数据进行图像校正后,并进行ocr处理,提取所述表格图片数据对应的图片特征,其中,所述图片特征为所述表格图片数据中的文字位置坐标信息;
9、处理模块,用于基于预设建立的指示,对所述表格图片数据进行结构化处理,得到文本信息;
10、确定模块,用于根据所述文字位置坐标信息和所述文本信息,确定所述表格图片数据对应的目标特征信息;
11、抽取模块,用于根据所述目标特征信息,将所述表格图片数据输入至可插拔的预训练语言模型中进行处理,以获取表格抽取结果。
12、第三方面,本专利技术实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的电子病历表格抽取的方法。
13、第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的电子病历表格抽取的方法。
14、综上所述,本专利技术提供了一种电子病历表格抽取的方法、装置、设备及存储介质,通过获取待处理的表格图片数据,对所述表格图片数据进行图像校正后,并进行ocr处理,提取表格图片数据对应的图片特征,其中,图片特征为表格图片数据中的文字位置坐标信息,基于预设建立的指示,对表格图片数据进行结构化处理,得到文本信息,根据文字位置坐标信息和文本信息,确定表格图片数据对应的目标特征信息,根据目标特征信息,将表格图片数据输入至可插拔的预训练语言模型中进行处理,以获取表格抽取结果。本申请通过获取表格图片数据中的文字位置坐标信息和文本信息后,再利用可插拔的预训练语言模型中进行处理,极大降低了模型引入成本,更适用于复杂表格信息抽取,提高了复杂表格的信息抽取效率和准确性。
本文档来自技高网...【技术保护点】
1.一种电子病历表格抽取的方法,其特征在于,包括:
2.如权利要求1所述的电子病历表格抽取的方法,其特征在于,所述根据所述文字位置坐标信息和所述文本信息,确定所述表格图片数据对应的目标特征信息,包括:
3.如权利要求1所述的电子病历表格抽取的方法,其特征在于,所述基于预设建立的指示,对所述表格图片数据进行结构化处理,得到文本信息,包括:
4.如权利要求1所述的电子病历表格抽取的方法,其特征在于,根据所述目标特征信息,所述将所述表格图片数据输入至可插拔的预训练语言模型中进行处理,以获取表格抽取结果,包括:
5.如权利要求4所述的电子病历表格抽取的方法,其特征在于,所述可插拔的预训练语言模型通过如下方式训练:
6.如权利要求4所述的电子病历表格抽取的方法,其特征在于,所述获取表格抽取结果之后,包括:
7.如权利要求6所述的电子病历表格抽取的方法,其特征在于,所述对抽取到的表格信息进行语义逻辑检测,并将检测到的错误信息进行标注,包括:
8.一种电子病历表格抽取的装置,其特征在于,包括:
9.
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的电子病历表格抽取的方法。
...【技术特征摘要】
1.一种电子病历表格抽取的方法,其特征在于,包括:
2.如权利要求1所述的电子病历表格抽取的方法,其特征在于,所述根据所述文字位置坐标信息和所述文本信息,确定所述表格图片数据对应的目标特征信息,包括:
3.如权利要求1所述的电子病历表格抽取的方法,其特征在于,所述基于预设建立的指示,对所述表格图片数据进行结构化处理,得到文本信息,包括:
4.如权利要求1所述的电子病历表格抽取的方法,其特征在于,根据所述目标特征信息,所述将所述表格图片数据输入至可插拔的预训练语言模型中进行处理,以获取表格抽取结果,包括:
5.如权利要求4所述的电子病历表格抽取的方法,其特征在于,所述可插拔的预训练语言模型通过如下方式训练:
6.如权利要求4...
【专利技术属性】
技术研发人员:张兆,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。