System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及一种用于医疗检验报告的信息提取方法及系统。
技术介绍
1、在医疗领域,医疗检验报告中包含了大量的重要信息,如患者的检测项目、检测结果、检测参考范围等,在各大检验机构信息不互通的情况下,为实现对某一患者历史的医疗检验报告进行汇总分析的目的,通常需要对患者的医疗检验报告进行信息提取。目前,为提取医疗检验报告中的信息,通常采用人工提取的方式,需要耗费大量的人力物力,而且容易出现误差,因此需要一种高效准确的信息提取方法来解决这一问题。
技术实现思路
1、本专利技术旨在至少在一定程度上解决上述技术问题,本专利技术提供了一种用于医疗检验报告的信息提取方法及系统。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种用于医疗检验报告的信息提取方法,包括:
4、对目标医疗检验报告进行图像数据采集处理,得到所述目标医疗检验报告的报告图像数据,并对所述报告图像数据进行预处理,得到预处理后报告图像数据;
5、对所述预处理后报告图像数据进行文字区域提取处理,得到所述预处理后报告图像数据中的文字区域图像数据;
6、对所述文字区域图像数据进行文字识别处理,得到检验报告文字识别数据;
7、对所述检验报告文字识别数据进行关键词提取处理,得到检验报告关键词;
8、将所述检验报告文字识别数据和所述检验报告关键词组合得到检验报告信息提取结果。
9、在一个可能的
10、对所述报告图像数据进行二值化处理,得到二值化报告图像数据;
11、对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据;
12、对所述变换后报告图像数据进行图像增强处理,得到预处理后报告图像数据,以便对所述预处理后报告图像数据进行文字区域提取处理。
13、在一个可能的设计中,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
14、获取所述二值化报告图像数据中的多个文字行的文字行曲线函数;
15、分别获取多个文字行曲线函数的一次项系数和二次项系数;
16、根据多个文字行曲线函数的一次项系数和二次项系数,以及预设的线型分类阈值,得到所述二值化报告图像数据的变形类型;
17、根据所述变形类型,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据。
18、在一个可能的设计中,所述二值化报告图像数据中的第 i个文字行的文字行曲线函数为:
19、
20、式中,为第 i个文字行的文字行曲线函数的横坐标值,为第 i个文字行的文字行曲线函数的横坐标值为为时的纵坐标值,为第 i个文字行的文字行曲线函数的二次项系数,为第 i个文字行的文字行曲线函数的一次项系数,为所述文字行曲线函数的常数项;
21、所述二值化报告图像数据的变形类型包括:
22、
23、式中,为所述二值化报告图像数据中的文字行的总数;,为线型分类阈值;。
24、在一个可能的设计中,当所述二值化报告图像数据的变形类型为扭曲变形时,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
25、从所述二值化报告图像数据中获取多个文字行中,与多个文字行中其他文字行之间的误差最小的文字行,并将该文字行作为所述二值化报告图像数据中的标准文字行;
26、根据所述标准文字行,对所述二值化报告图像数据进行坐标变换处理,得到变换后报告图像数据;
27、当所述二值化报告图像数据的变形类型为倾斜变形时,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
28、获取所述二值化报告图像数据的文字行斜率;
29、采用所述文字行斜率对所述二值化报告图像数据进行像素坐标变换处理;其中,所述二值化报告图像数据的变换后坐标中的横、纵坐标值为:
30、
31、式中,为所述二值化报告图像数据中横坐标为的像素点的变换后坐标的横坐标值;为所述二值化报告图像数据中纵坐标为的像素点的变换后坐标的纵坐标值;为所述二值化报告图像数据的文字行斜率,;
32、当所述二值化报告图像数据的变形类型为透视变形时,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
33、对所述二值化报告图像数据进行垂直投影,得到所述二值化报告图像数据的左边界 xleft和右边界 xright;
34、对所述二值化报告图像数据中,从所述左边界 xleft起至预设中界 xleft+ w止的区域进行水平投影,得到左上纵坐标 yleft-top和左下纵坐标 yleft-bottom;并对所述二值化报告图像数据中,从预设中界 xleft+ w起至右边界 xright止的区域进行水平投影,得到右上纵坐标 yright-top和右下纵坐标 yright-bottom;其中, w为预设的中界长度,0< w< xright- xleft;
35、根据左边界 xleft、右边界 xright、左上纵坐标 yleft-top、左下纵坐标 yleft-bottom、右上纵坐标 yright-top和右下纵坐标 yright-bottom得到四个变换后顶点坐标,并以四个变换后顶点坐标为最终结果,对所述二值化报告图像数据进行校正处理,得到顶点坐标与四个变换后顶点坐标一致的变换后报告图像数据。
36、在一个可能的设计中,对所述预处理后报告图像数据进行文字区域提取处理,得到所述预处理后报告图像数据中的文字区域图像数据,包括:
37、采用多个不同的频率和方向的gabor滤波器分别对所述预处理后报告图像数据进行滤波处理,得到多个滤波响应图像;
38、本文档来自技高网...
【技术保护点】
1.一种用于医疗检验报告的信息提取方法,其特征在于:包括:
2.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述报告图像数据进行预处理,得到预处理后报告图像数据,包括:
3.根据权利要求2所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
4.根据权利要求3所述的一种用于医疗检验报告的信息提取方法,其特征在于:所述二值化报告图像数据中的第i个文字行的文字行曲线函数为:
5.根据权利要求4所述的一种用于医疗检验报告的信息提取方法,其特征在于:当所述二值化报告图像数据的变形类型为扭曲变形时,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
6.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述预处理后报告图像数据进行文字区域提取处理,得到所述预处理后报告图像数据中的文字区域图像数据,包括:
7.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所
8.根据权利要求7所述的一种用于医疗检验报告的信息提取方法,其特征在于:根据所述检验报告文字识别数据对所述报告字符数据库进行自适应学习,以便实现对所述字符数据库的更新。
9.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述检验报告文字识别数据进行关键词提取处理,得到检验报告关键词,包括:
10.一种用于医疗检验报告的信息提取系统,其特征在于:用于实现如权利要求1至9中任意一项所述的用于医疗检验报告的信息提取方法;所述用于医疗检验报告的信息提取系统包括:
...【技术特征摘要】
1.一种用于医疗检验报告的信息提取方法,其特征在于:包括:
2.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述报告图像数据进行预处理,得到预处理后报告图像数据,包括:
3.根据权利要求2所述的一种用于医疗检验报告的信息提取方法,其特征在于:对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
4.根据权利要求3所述的一种用于医疗检验报告的信息提取方法,其特征在于:所述二值化报告图像数据中的第i个文字行的文字行曲线函数为:
5.根据权利要求4所述的一种用于医疗检验报告的信息提取方法,其特征在于:当所述二值化报告图像数据的变形类型为扭曲变形时,对所述二值化报告图像数据进行图像校正处理,得到变换后报告图像数据,包括:
6.根据权利要求1所述的一种用于医疗检验报告的信息提取方法,其特...
【专利技术属性】
技术研发人员:马骏,郭伟,肖忠敏,黄圣杰,叶娟,
申请(专利权)人:四川互慧软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。