【技术实现步骤摘要】
本专利技术涉及信息提取,具体而言,涉及一种诊断内容提取方法、系统、介质及产品。
技术介绍
1、现有技术在提取病人信息时,首先需要人为手动指定提取区域,再在提取区域上提取关键信息,最后整理输出。
2、现有的流程存在局限性,主要体现在以下四个方面:1.提取区域粒度过小,人工指定费时费力;2.提取区域位置固定,不能适配变长内容;3.不同文件结构不同,处理流程难统一;4.关键信息类型多样,其中关键信息可能存在表格和文本的形式,在不同的文件中的形式不同,导致提取模式难设计。
技术实现思路
1、有鉴于此,本申请实施例的目的在于提供一种诊断内容提取方法、系统、介质及产品,能够改善现有技术处理流程难统一以及提取模式难设计的问题。
2、为实现上述技术目的,本申请采用的技术方案如下:
3、第一方面,本申请实施例提供了一种诊断内容提取方法,所述方法包括:
4、接收待处理文档;
5、读取用户在待处理文档上划分的提取区域;
6、基于所述提取区域内诊断内容的结构信息,选择对应的信息提取模式进行信息提取,所述结构信息包括文本或者表格。
7、进一步,所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
8、所述诊断内容为表格时,将相邻的且间距小于设定阈值的字符聚合为一个单元格
9、进一步,所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
10、所述诊断内容为文字时,将所述诊断
11、进一步,所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
12、去除所有干扰字符;
13、当前页的所述干扰字符为上一页相同位置出现的相同字符。
14、进一步,所述选择对应的信息提取模式进行信息提取包括:选择表格信息提取模式对诊断内容进行信息提取,所述表格信息提取模式包括:
15、将同一行的两个单元格配对为键值对,得到所有行的二元组;
16、基于二元组的key值,逐行提取与key值匹配的value。
17、进一步,所述选择对应的信息提取模式进行信息提取包括:所述诊断内容为文本时,选择正则表达式对诊断内容进行信息提取。
18、进一步,所述选择对应的信息提取模式进行信息提取包括:所述诊断内容为文本时,选择词语法分析的方式对子诊断内容进行信息提取。
19、第二方面,本申请实施例还提供一种诊断内容提取系统,包括:
20、接收模块,配置为接收待处理文档;
21、读取模块,配置为读取用户在待处理文档上划分的提取区域;
22、信息提取模块,配置为基于所述提取区域内诊断内容的结构信息,选择对应的信息提取模式进行信息提取,所述结构信息包括文本或者表格。
23、第三方面,本申请实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
24、第四方面,本申请实施例还提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的方法。
25、采用上述技术方案的专利技术,具有如下优点:
26、本申请读取待处理文档的提取区域后,针对提取区域内诊断内容的结构信息,选择对应的信息提取模式,进行诊断内容的提取,上述过程形成了模块化流程,有利于模块化设计,适用于所有格式的文件,进而统一了处理流程,同时,针对不同的结构信息的诊断内容采用对应的信息提取模式,提高了诊断内容提取的效率。
27、本申请在选择对应的信息提取模式进行信息提取以前,执行将离散的单个字符聚合成行、去除干扰字符以及将相邻的且间距小于设定阈值的字符聚合为一个单元格的步骤,避免在提取信息后的人为修改,提高了诊断内容提取的效率。
本文档来自技高网...【技术保护点】
1.一种诊断内容提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取包括:选择表格信息提取模式对诊断内容进行信息提取;
6.根据权利要求4所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取包括:所述诊断内容为文本时,选择正则表达式对诊断内容进行信息提取。
7.根据权利要求4所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取包括:所述诊断内容为文本时,选择词语法分析的方式对子诊断内容进行信息提取。
8.一种诊断内容提取系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种诊断内容提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取以前,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于:所述选择对应的信息提取模式进行信息提取包括:选择表格信息提取模式对诊断内容进行信息提取;
6.根据权利要求4所述的方法,其特征在于:所述选择对应的信息提取模式进...
【专利技术属性】
技术研发人员:刘水清,杨武晨,苟阳,刘思恒,张曦,彭贤贵,张诚,
申请(专利权)人:中国人民解放军陆军军医大学第二附属医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。