System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于融合检测的底稿图像识别系统及方法技术方案_技高网

一种基于融合检测的底稿图像识别系统及方法技术方案

技术编号:42958642 阅读:21 留言:0更新日期:2024-10-11 16:17
本发明专利技术公开了一种基于融合检测的底稿图像识别系统及方法,属于光学字符识别技术领域,其方法具体包括:获取底稿图像,并对获取的底稿图像进行预处理,对预处理后的底稿图像进行角度识别,并进行旋转校正处理,对旋转校正后的底稿图像中的文本位置进行识别,根本识别出的底稿图像中的文本位置,对底稿图像中文本内容进行识别,通过融合多种检测方法,可以综合各自的优点,减少单一方法的缺陷,提高底稿图像的识别精度,该方法适用于各种复杂的底稿图像识别场景,包括但不限于金融领域的底稿图像等。

【技术实现步骤摘要】

本专利技术属于光学字符识别,具体的说是一种基于融合检测的底稿图像识别系统及方法


技术介绍

1、光学字符识别一般包括图像预处理、文本检测和文本识别过程,其中文本检测方法中比较流行的是基于像素分割的方法和基于回归的方法。底稿图像包含金融场景下的各类文本图像,如银行流水、发票、凭证和各类证件照等,打印质量也各不相同,存在拍照、扫描和pdf打印等。因此,底稿图像中的文本行尺寸、形状和页面排版多变,字体也各不相同,存在小字、透字、文本粘连等问题,由于其场景的复杂性,使用现有的单一文本检测模型很难达到较好的文本检测效果,从而导致整体识别质量差。

2、基于像素分割的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图,然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框,这类方法中比较典型的算法有psenet、pan、msr和dbnet等。基于回归的文本检测方法主要是基于以深度学习为基础的目标检测技术或者实例分割技术,它将文本视为一种通用目标然后直接检测出整个文本实例,此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题,这类方法中比较典型的算法有text-boxes、east和yolo等。基于像素分割的方法的主要优势在于对文本边界的预测比较精准,能够适应于各种形状的文本,同时有较强的抗噪声干扰能力;同时它也存在一些缺陷,如无法检测重叠文本和对小目标不敏感等。基于回归的方法的主要优势在于能够准确检测重叠文本、对小目标的检测效果较好;同时它的缺陷在于不适用于文本行角度、形状存在多样性的场景。

3、如公开号为cn116935405a的中国专利公开了一种基于ocr和nlp提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为jpg格式的图片;3)、使用dbnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、进行关键词搜索,并规范化提取内容。该专利技术通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。

4、如公开号为cn118314563a的中国专利公开了一种基于旋转框体的文本检测方法,属于文本检测领域。所述方法包括:s1、获取图片数据集,并对其进行预处理;s2、构造基于改进yolov8s-obb算法得到的文本检测模型;s3、将所述步骤s1预处理后的图片数据集输入所述步骤s2的文本检测模型中进行迭代,得到最优的文本检测模型;s4、使用所述最优的文本检测模型对所述步骤s1预处理后的图片数据集进行文本检测。该专利技术通过改进的yolov8s-obb算法生成可旋转的文字检测框体,解决了交通标志牌等目标因图像角度问题所导致的检测框无法全覆盖的问题,同时有效提高检测准确度。

5、上述专利的缺陷:1)无法处理重叠文本,会导致后续识别结果错误;2)对于长文本检测效果不够好,不能适用于底稿文本识别场景。


技术实现思路

1、针对现有技术的不足,本专利技术提出了一种基于融合检测的底稿图像识别系统及方法,主要包括旋转校正、检测模块和图像文字识别,其中检测模块使用了基于分割的文本检测方法和基于回归的文本检测方法,并将二者的检测结果融合,最后输出底稿图像中的所有文本行的位置。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于融合检测的底稿图像识别方法,包括以下具体步骤:

4、获取底稿图像,并对获取的底稿图像进行预处理;

5、对预处理后的底稿图像进行角度识别,并进行旋转校正处理;

6、对旋转校正后的底稿图像中的文本位置进行识别;

7、根本识别出的底稿图像中的文本位置,对底稿图像中文本内容进行识别。

8、具体的,所述对预处理后的底稿图像进行角度识别,包括:

9、使用预先标注角度值的底稿图像数据集来训练mobilenet-v3模型,在模型训练完成后,得到底稿朝向识别模型;

10、设定获取的底稿图像为i(x,y),将底稿图像i(x,y)输入至底稿朝向识别模型中,得到底稿图像i(x,y)的朝向角度;

11、将底稿图像i(x,y)从空间域转换到频率域,生成频谱,生成频谱的具体公式为:

12、,

13、其中,f(u,v)表示频率域中频率为(u,v)的频谱值,u表示频率域中的水平频率分量,v表示频率域中的垂直频率分量,i(i,j)表示底稿图像中坐标位置为(i,j)的灰度值,m表示底稿图像i(x,y)的宽度,n表示底稿图像i(x,y)的高度,表示虚数单位,且满足=-1,e表示指数函数;

14、在底稿图像i(x,y)的频率域中进行自适应径向投影,提取底稿图像i(x,y)的倾斜角度。

15、具体的,所述提取底稿图像i(x,y)的倾斜角度,包括:

16、计算频率域中频率为(u,v)的幅度值,计算公式为:

17、,

18、其中,a(u,v)表示频率域中频率为(u,v)的幅度值,re(f(u,v))表示频率域中频率为(u,v)的实部,im(f(u,v))表示频率域中频率为(u,v)的虚部;

19、对频率域中频谱的幅度进行径向投影,转化为极坐标表示,并在不同角度进行投影求和,得到投影值,投影求和的具体公式为:

20、,

21、其中,表示频率域中频谱的幅度在角度上的投影值,表示投影角度,r表示径向距离,r表示频率域中频谱的最大半径;

22、对底稿图像i(x,y)的倾斜角度进行检测,具体公式为:,其中,argmax表示使投影值达到最大值的角度,表示底稿图像i(x,y)的倾斜角度。

23、具体的,所述旋转校正处理,包括:

24、根据提取的底稿图像i(x,y)的倾斜角度,对底稿图像i(x,y)进行旋转校正,具体公式为:

25、,

26、其中,表示旋转校正后的底稿图像。

27、具体的,所述对旋转校正后的金融领域的底稿图像中的文本位置进行识别,包括:

28、获取底稿图像公共数据集,人工标注底稿图像公共数据集中的文本行位置信息;

29、使用含有文本行位置标注信息的底稿图像公共数据集训练第一文本检测模型和第二文本检测模型,得到训练好的第一文本检测模型和第二文本检测模型;

30、将旋转校正后的金融领域的底稿图像分别输入至第一文本检测模型和第二文本检测模型,得到第一文本行位置的预测结果和第二文本行位置的预测结果;

31、设定第本文档来自技高网...

【技术保护点】

1.一种基于融合检测的底稿图像识别方法,其特征在于,包括:

2.如权利要求1所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述对预处理后的底稿图像进行角度识别,包括:

3.如权利要求2所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述提取底稿图像I(x,y)的倾斜角度,包括:

4.如权利要求3所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述旋转校正处理,包括:

5.如权利要求4所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述对旋转校正后的金融领域的底稿图像中的文本位置进行识别,包括:

6.如权利要求5所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述融合策略,包括:

7.一种基于融合检测的底稿图像识别系统,其用于实现权利要求1-6中任一项所述的一种基于融合检测的底稿图像识别方法,其特征在于,包括:图像获取模块,旋转校正模块,位置识别模块和文本识别模块;

8.如权利要求7所述的一种基于融合检测的底稿图像识别系统,其特征在于,所述旋转校正模块包括角度识别单元和旋转校正单元,

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的一种基于融合检测的底稿图像识别方法的步骤。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,当计算机指令运行时执行权利要求1-6中任一项所述的一种基于融合检测的底稿图像识别方法的步骤。

...

【技术特征摘要】

1.一种基于融合检测的底稿图像识别方法,其特征在于,包括:

2.如权利要求1所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述对预处理后的底稿图像进行角度识别,包括:

3.如权利要求2所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述提取底稿图像i(x,y)的倾斜角度,包括:

4.如权利要求3所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述旋转校正处理,包括:

5.如权利要求4所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述对旋转校正后的金融领域的底稿图像中的文本位置进行识别,包括:

6.如权利要求5所述的一种基于融合检测的底稿图像识别方法,其特征在于,所述融合策略,包括:

【专利技术属性】
技术研发人员:尹亮刘辉邓勇仇星韩起磊
申请(专利权)人:北京荣大科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1