一种结构文本化营业执照图片的方法技术

技术编号:31696676 阅读:19 留言:0更新日期:2022-01-01 10:56
本发明专利技术公开了一种结构文本化营业执照图片的方法,涉及结构文本化图片处理技术领域,使用了四个阶段对营业执照目标进行检测,营业执照文本进行检测,营业执照文字进行识别,文字内容进行结构化输出,该流程有效的规避了目前市场上大部分营业执照ocr识别算法对于复杂背景和一图多证的鲁棒性较差的痛点,同时弥补了主流方案对于输出文本结构化的匮乏,其可实现多场景多营业执照的自动检测以及文本内容结构化的智能提取,助力快速检索和采集入库公司营业执照信息,提升了工作效率。提升了工作效率。提升了工作效率。

【技术实现步骤摘要】
一种结构文本化营业执照图片的方法


[0001]本专利技术涉及结构文本化图片处理
,尤其涉及一种结构文本化营业执照图片的方法。

技术介绍

[0002]市场上各大厂已有成产品化的营业执照识别硬件和方法,大部分以服务端接口互联网调用方式作为产品化,在银行、税务局、警务处都有着庞大的应用市场。
[0003]现有技术大部分需要固定拍摄营业执照的姿态和营业执照在图片中的占比,严重影响用户体验,对于户外民警手持拍摄采集和用户自然场景调用及其不友好。
[0004]现有技术大部分以文本识别的方式为核心点,忽略了结构化输出字段的重要性,舍弃了营业执照业务场景的真实需求点。
[0005]目前市场存在另一种方案,即在步骤3裁剪出字段图片后进行深度分类网络进行智能分类到不同的字段类别,改方案在有效性上略逊于本专利技术,但是在时间效率上由于进行了多一次深度网络分类,耗时更长。
[0006]目前市场存在另一种方案,采用NLP算法直接对步骤5中输出的识别字符串进行分类,但是NLP中的规则制定成本较高,不适应与本专利技术方案的普适性,即只能用于“营业执照”,当迁移到其他证卡识别时,规则全部需要重新制定。

技术实现思路

[0007]本专利技术所要解决的技术问题是针对上述现有技术的不足提供一种结构文本化营业执照图片的方法,其可实现多场景多营业执照的自动检测以及文本内容结构化的智能提取,助力快速检索和采集入库公司营业执照信息,提升了工作效率。
[0008]本专利技术为解决上述技术问题采用以下技术方案:
[0009]一种结构文本化营业执照图片的方法,具体包括以下步骤:
[0010]步骤1,选取N张带有标注的营业执照图片作为训练样本,通过训练得到营业执照检测模型、字段检测模型和字段识别模型;其中,N>1000;
[0011]步骤2,待识别的训练样本通过营业执照检测模型输出营业执照的四点坐标和旋转角度θ
i
,其中,i∈k,k表示此样本中包含的营业执照总数;将每个营业执照分别进行后续操作,其中,四点坐标按照左下角为起点,顺时针方向排序;
[0012]步骤3,通过步骤2营业执照检测模型输出营业执照的四点坐标将营业执照图像进行裁剪得到四边形矩阵,得到了k 个只包含一张营业执照的前景图片;
[0013]步骤4:将前景图片通过字段检测模型进行检测,若检测成功则得到n个文本四点坐标(A,B)位置和所述字段类别(δ),其中,n代表当前前景图片的文本总数目,
[0014](A,B)=[(a1,b1),(a2,b2),(a3,b3),(a4,b4)][0015]字段类别δ={C0:F0,...C
i
:F
i
...,C
t_k
:F
t_k
},其中,t_k为阈值top_k,表示取最近的前top_k个文本类别C
i
,F
i
代表网络输出的分数,
[0016]文本四边形坐标通过步骤3中相同的透射变换操作,将前景图片裁剪成n 个文本矩形图片,其中,每个文本矩形图片M
i
与字段类别δ
i
一一对应;
[0017]步骤5,将步骤4获取的文本矩形图片通过OCR文本框识别模型,得到n个文本字段字符串;
[0018]步骤6,结合文本字段内容S
i
和字段类别δ
i
,联合判别得到最终类别Class,具体联合判别方式如下:
[0019]对于每个字段类别δ
i
,若F
i
>0.9,则表示该输出类别置信度足够高,则 Class=C
i

[0020]反之,则计算文本字段内容S
i
到top_k个文本类别{F0,...F
i
...,F
t_k
}的边界距离 {D0,...D
i
...,D
t_k
}=D,取出边界距离最小值位置arg_min(D)=D
m
,通过该位置得到文本类别则
[0021]步骤7,将包含营业执照的图片样本转化为结构化字符串输出。
[0022]作为本专利技术一种结构文本化营业执照图片的方法的进一步优选方案,在步骤1中,带有标注的营业执照图片包括:营业执照检测框四点标注和角度标注,字段检测框的四点标注和类别标注,字段检测框内的文字内容标注;
[0023]营业执照检测模型的输出为营业执照的四点坐标(x,y)位置和旋转角度 (θ),其中,θ∈[0,360];
[0024]字段检测模型的输出为营业执照的n个文本四点坐标(A,B)位置和所述字段类别(δ),其中其中C代表所有版面合集,C
i
代表第i个版面包含的字段类别总数;
[0025]字段识别模型的输出为通过上述字段检测模型得到字段框内的文本内容。
[0026]作为本专利技术一种结构文本化营业执照图片的方法的进一步优选方案,在步骤3中,四边形矩阵的长宽(h,w)计算公式具体为:
[0027][0028][0029]通过仿射变换将四边形矩阵进行

θ
i
角度旋转,仿射变换中心点坐标为 (w/2,h/2),仿射变换旋转矩阵为:
[0030][0031]通过投射变换上述旋转后的四边形矩阵转变为矩形矩阵,矩形坐标表示为[0,0,w,h];
[0032]透射变换矩阵为:
[0033]其中a
11

a
33
为投射变换参数,通过一组变换前后的四边形坐标和矩形坐标得到。
[0034]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:
[0035]1、本专利技术使用了四个阶段对营业执照目标进行检测,营业执照文本进行检测,营业执照文字进行识别,文字内容进行结构化输出,该流程有效的规避了目前市场上大部分营业执照ocr识别算法对于复杂背景和一图多证的鲁棒性较差的痛点,同时弥补了主流方案对于输出文本结构化的匮乏;
[0036]2、本专利技术结果了有效性测试的营业执照ocr识别的解决方案;采用文本检测分类结合文本识别距离的方式,双重保障识别内容的结构化分析准确性;
[0037]3、本专利技术提供的一种结构文本化营业执照图片的方法,其算法流程具备较强的普适性,可迁移到税务登记证、驾驶证等其他证卡图片结构文本化输出中;
[0038]4、本专利技术的最终测试结果高于市场主流方案,对于复杂场景(手持、旋转、扭曲、多目标等)的鲁棒性要明显优于现有技术,本专利技术结构文本化输出识别结果将更加切合用户使用,目前已经落地使用。
附图说明
[0039]图1是本专利技术一种结构文本化营业执照图片的方法的流程图;
[0040]图2是本专利技术营业执照示意图;
[0041]图3是本专利技术测试效果示意图。
具体实施方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构文本化营业执照图片的方法,其特征在于:具体包括以下步骤:步骤1,选取N张带有标注的营业执照图片作为训练样本,通过训练得到营业执照检测模型、字段检测模型和字段识别模型;其中,N>1000;步骤2,待识别的训练样本通过营业执照检测模型输出营业执照的四点坐标和旋转角度θ
i
,其中,i∈k,k表示此样本中包含的营业执照总数;将每个营业执照分别进行后续操作,其中,四点坐标按照左下角为起点,顺时针方向排序;步骤3,通过步骤2营业执照检测模型输出营业执照的四点坐标将营业执照图像进行裁剪得到四边形矩阵,得到了k个只包含一张营业执照的前景图片;步骤4:将前景图片通过字段检测模型进行检测,若检测成功则得到n个文本四点坐标(A,B)位置和所述字段类别(δ),其中,n代表当前前景图片的文本总数目,(A,B)=[(a1,b1),(a2,b2),(a3,b3),(a4,b4)]字段类别δ={C0:F0,...C
i
:F
i
...,C
t_k
:F
t_k
},其中,t_k为阈值top_k,表示取最近的前top_k个文本类别C
i
,F
i
代表网络输出的分数,文本四边形坐标通过步骤3中相同的透射变换操作,将前景图片裁剪成n个文本矩形图片,其中,每个文本矩形图片M
i
与字段类别δ
i
一一对应;步骤5,将步骤4获取的文本矩形图片通过OCR文本框识别模型,得到n个文本字段字符串;步骤6,结合文本字段内容S
i
和字段类别δ
i
,联合判别得到最终类别Class,具体联合判别方式如下:对于每个字段类别δ
i
,若F
i

【专利技术属性】
技术研发人员:穆宁郭涛远李磊朱和军王康
申请(专利权)人:南京烽火天地通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1