【技术实现步骤摘要】
一种权威机构体检报告自动识别方法及系统
[0001]本专利技术涉及图像识别和自然语言处理领域,特别是涉及一种权威机构体检报告自动识别方法及系统。
技术介绍
[0002]随着电子化信息数据的迅猛增长,海量的图像证件,票据,凭证,表格数据以及PDF数据需要提取相关信息,人工录入耗时长,成本高,使用OCR将会极大的提高处理效率。
[0003]传统深度学习 OCR 的训练过程包含两个模型:文字检测模型和文本识别模型;在推理阶段,将这两个模型组合起来构建成整套的图文识别系统。文本检测算法有DB、EAST、SAST 等等,文本识别算法有CRNN、RARE、StarNet、Rosetta、SRN 等算法。近几年,出现了端到端的图文检测与识别网络:在训练阶段,该模型的输入包含待训练图像、图像中的文本内容以及文本对应的坐标;在推理阶段,原始图片经过端到端模型直接预测出文本内容信息。端到端的方法主要有FOTS (Fast Oriented Text Spotting)、STN
‑
OCR等。
[0004]公布号为CN 110543844 A,名称为一种政务元数据PDF文件的元数据抽取方法的专利文献,使用OCR文字识别引擎,识别PDF文件中的内容,通过对政务元数据信息的模板匹配方法,抽取出元数据的字段和属性值等重要的信息,录入到系统,提高了抽取效率,但是只适用与提取简单的信息,不适合处理复杂的表格。公布号为CN 113326797 A,名称为一种PDF文档提取的表格信息转换为结构化知识的方法的专利文献,将P ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种权威机构体检报告自动识别方法,其特征在于,包括:S1.创建体检报告模板库,获取体检报告制作相应JSON格式的体检报告模板,将所述体检报告模板存入体检报告模板库中;S2.构建并训练OCR识别模型;S3.将所述体检报告输入所述OCR识别模型后进行版面分析,得到OCR识别结果;S4.将所述OCR识别结果与所述JSON格式的体检报告模板结合进行结构化处理得到体检报告文本。2.如权利要求1所述的一种权威机构体检报告自动识别方法,其特征在于,所述体检报告是通过权威体检机构获取到的或者用户主动上传的;所述JSON格式的体检报告模板主要包括:体检机构名称;所述体检机构名称包括:体检机构标识、列定位关键字、版面分析参数、识别检查项目和未定义检查项目,其中,所述版面分析参数包括:字符水平间距、词组水平间距和行垂直间距;所述识别检查项目包括检查项目名称,其中,所述检查项目名称包括:加强定位符、匹配验证和检查项目子项,其中,所述匹配验证包括:拆分关键字和关键字匹配次数;所述检查项目子项包括:子项和未定义子项,所述子项包括:子项加强定位符和子项匹配验证;所述子项匹配验证包括:子项拆分关键字、子项关键字匹配次数、单位和参考范围。3.如权利要求1所述的一种权威机构体检报告自动识别方法,其特征在于,所述S2,包括:S2
‑
1.采用可微二值化DB算法构建文本检测模型;S2
‑
2.采用CRNN算法构建文本识别模型;S2
‑
3.获取文本检测数据集和文本识别数据集,将所述文本检测数据集和文本识别数据集分为训练集和测试集,所述训练集和测试集分别用于训练和测试;S2
‑
4.使用所述文本检测数据集训练并测试文本检测模型;S2
‑
5.使用所述文本识别数据集训练并测试文本识别模型;S2
‑
6.训练并测试后得到的文本检测模型和文本识别模型构成OCR识别模型。4.如权利要求3所述的一种权威机构体检报告自动识别方法,其特征在于,所述获取文本检测数据集和文本识别数据集是从互联网上获取到的公开数据集;所述文本检测数据集,包括英文数据集ICDAR2015和中文数据集LSVT街景数据集;所述文本识别数据集,包括英文数据集MJSynth和SynthText合成数据,中文数据集LSVT街景数据集。5.如权利要求1或3所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3,包括:S3
‑
1.将所述体检报告的PDF文件转换成指定分辨率的图片列表;S3
‑
2.依次将所述图片列表中的图片输入所述文本检测模型,得到所述图片上所有文本框box的位置坐标;S3
‑
3.依次将所述文本框box输入所述文本识别模型,得到所述文本框box对应的文字内容;S3
‑
4.将全部所述文本框box按相邻位置进行聚类合并得到元box列表;S3
‑
5.对所述元box列表中的元box进行重排版得到OCR识别结果。
6.如权利要求2或5所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3
‑
4,包括:S3
‑4‑
1.遍历全部所述文本框box,对所述文本框box先对x坐标进行升序排序再对y坐标进行升序排序,得到排序后的文本框box;S3
‑4‑
2.依次取出所述排序后的文本框box,得到所述文本框box的右邻域的文本框box和下邻域的文本框box;S3
‑4‑
3.设置版面分析参数作为阈值,判断所述文本框box与右邻域的文本框box和下邻域的文本框box之间的距离是否大于等于阈值,若是,将所述文本框box与右邻域的文本框box和下邻域的文本框box进行合并生成元box,转S3
‑4‑
2;若否,则所述文本框box直接生成元box,转S3
‑4‑
4;S3
‑4‑
4.创建元box列表,将所述元box存储于元box列表中。7.如权利要求2或5所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3
‑
5,包括:S3
‑5‑
1.遍历同一张图片上全部所述元box列表中的元box,对所述元box先对x坐标进行升序排序再对y坐标进行升序排序,得到排序后的元box;S3
‑5‑
2.遍历所述排序后的元box,定义行列表,依次取出所述元box,判断行列表是否为空,若是,将所述元box加入到所述行列表中,转S3
‑5‑
1;若否,转S3
‑5‑
技术研发人员:赵伟,吉龙,李瑞瑞,马勇,
申请(专利权)人:北京富通智康科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。