基于文本检测的报告材料印章文字识别方法和装置制造方法及图纸

技术编号:35292499 阅读:31 留言:0更新日期:2022-10-22 12:39
本申请涉及一种基于文本检测的报告材料印章文字识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取印章图像;对所述印章图像进行预处理,获得所述印章图像中的印章区域图像;将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息;基于所述文字所属区域信息,从所述印章区域图像中提取出印章文字区域图像;对所述印章文字区域图像进行处理,识别出所述印章图像中的印章文字。采用本方法能够提升印章文字的识别精度。方法能够提升印章文字的识别精度。方法能够提升印章文字的识别精度。

【技术实现步骤摘要】
基于文本检测的报告材料印章文字识别方法和装置


[0001]本申请涉及计算机
,特别是涉及一种基于文本检测的报告材料印章文字识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,为了落实公司数字化转型建设战略部署,全面提升文档管理质量,加速文件审核流程,传统技术中一般通过在电子设备上运行文字检测算法,从而实现文件的相关内容(如文件中的印章区域的印章文字)的审查。
[0003]然而当前的文字检测算法,在对印章区域的印章文字进行识别时,大多检测受限,如只能检测水平文本行、无法检测弯曲程度的较大的文本,最终导致识别精度较差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高印章文字识别精度的基于文本检测的报告材料印章文字识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种基于文本检测的报告材料印章文字识别方法。所述方法包括:
[0006]获取印章图像;
[0007]对所述印章图像进行预处理,获得所述印章图像中的印章区域图像;
[0008]将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息;
[0009]基于所述文字所属区域信息,从所述印章区域图像中提取出印章文字区域图像;
[0010]对所述印章文字区域图像进行处理,识别出所述印章图像中的印章文字。
[0011]在其中一个实施例中,所述对所述印章图像进行预处理,获得所述印章图像中的印章区域图像,包括:
[0012]对所述印章图像进行边缘检测,确定出所述印章图像中的中心点坐标,和所述中心点坐标对应的半径信息;
[0013]根据所述中心点坐标和半径信息,确定待提取印章区域;
[0014]基于HSI颜色空间过滤法,对所述待提取印章区域进行去噪处理,获得所述印章图像中的印章区域图像。
[0015]在其中一个实施例中,所述基于HSI颜色空间过滤法,对所述待提取印章区域进行去噪处理,获得所述印章图像中的印章区域图像,包括:
[0016]计算所述待提取印章区域中,各像素点的像素参数;
[0017]基于所述像素参数,确定所述HSI颜色空间的印章色彩饱和度范围、印章色彩强度范围以及印章色彩波长范围;
[0018]提取出同时满足所述印章色彩范围、所述印章色彩强度范围以及所述印章色彩波
长范围的像素点,获得所述印章图像中的印章区域图像。
[0019]在其中一个实施例中,所述将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息,包括:
[0020]所述文字检测模型的特征提取网络提取所述印章区域图像中文字的文字特征;
[0021]所述文字检测模型的编码器根据所述文字对应的位置编码和所述文字的文字特征,得到注意了所述文字与其它文字的位置关系的所述文字的特征向量;
[0022]所述元器件识别模型的解码器根据所述文字的特征向量以及目标查询集合,得到所述目标查询集合的各类预测框的标识;
[0023]所述元器件识别模型的识别头根据所述各类预测框的标识和所述文字的特征向量,预测所述印章区域图像中的文字所属区域信息。
[0024]在其中一个实施例中,所述提取所述印章区域图像中文字的文字特征,包括:
[0025]通过所述特征提取网络对所述印章区域图像进行卷积和降采样处理,提取所述印章区域图像的特征图,利用空间注意力机制对所述特征图进行处理,得到所述印章区域图像中各所述文字的文字特征。
[0026]在其中一个实施例中,所述文字所属区域信息包括多个控制点的坐标信息;
[0027]所述基于所述文字所属区域信息,从所述印章区域图像中提取出印章文字区域图像,包括:
[0028]基于各所述控制点的坐标信息,确定贝济埃曲线;
[0029]基于所述贝济埃曲线,从所述印章区域图像中,提取出扇环形印章文字区域图像;
[0030]对所述扇环形印章文字区域图像进行极坐标转换,将所述扇环形印章文字区域图像转换为矩形印章文字区域图像,所述印章文字区域图像为矩形印章文字区域图像。
[0031]在其中一个实施例中,所述对所述印章文字区域图像进行处理,识别出所述印章图像中的印章文字,包括:
[0032]将所述印章文字区域图像输入至卷积循环神经网络;
[0033]所述卷积循环神经网络的卷积层对印章文字区域图像进行卷积处理,获得所述印章文字区域的卷积文字特征图;
[0034]所述卷积循环神经网络的循环层将所述卷积文字特征图转换成文字特征向量,并对所述文字特征向量进行特征编码,得到卷积文字特征序列,以及对所述卷积文字特征序列进行预测,得到预测标签分布;
[0035]所述卷积神经网络的转录层对所述预测标签分布进行序列解码,识别出所述印章图像中的印章文字。
[0036]第二方面,本申请还提供了一种基于文本检测的报告材料印章文字识别装置,所述装置包括:
[0037]图像获取模块,用于获取印章图像;
[0038]第一图像处理模块,用于对所述印章图像进行预处理,获得所述印章图像中的印章区域图像;
[0039]信息获取模块,用于将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息;
[0040]第二图像处理模块,用于基于所述文字所属区域信息,从所述印章区域图像中提
取出印章文字区域图像;
[0041]文字识别模块,用于对所述印章文字区域图像进行处理,识别出所述印章图像中的印章文字。
[0042]第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于文本检测的报告材料印章文字识别方法的步骤。
[0043]第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于文本检测的报告材料印章文字识别方法的步骤。
[0044]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述基于文本检测的报告材料印章文字识别方法的步骤。
[0045]上述基于文本检测的报告材料印章文字识别方法、装置、计算机设备、存储介质和计算机程序产品,通过对印章图像进行预处理,获得印章区域图像,并将印章区域图像输入至预先训练的文字检测模型,使得可以通过文字检测模型,得到文字所属区域信息,由于获得了文字所属区域信息,因此可以准确的从印章区域图像中提取出印章文字区域的图像,使得后续可以更加高效的对印章图像中的印章文字进行识别,最终有效降低审核人员的工作强度,提升文档审核效率,推动业务数字化转型进程。
附图说明
[0046]图1为一个实施例中基于文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本检测的报告材料印章文字识别方法,其特征在于,所述方法包括:获取印章图像;对所述印章图像进行预处理,获得所述印章图像中的印章区域图像;将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息;基于所述文字所属区域信息,从所述印章区域图像中提取出印章文字区域图像;对所述印章文字区域图像进行处理,识别出所述印章图像中的印章文字。2.根据权利要求1所述的方法,所述对所述印章图像进行预处理,获得所述印章图像中的印章区域图像,包括:对所述印章图像进行边缘检测,确定出所述印章图像中的中心点坐标,和所述中心点坐标对应的半径信息;根据所述中心点坐标和半径信息,确定待提取印章区域;基于HSI颜色空间过滤法,对所述待提取印章区域进行去噪处理,获得所述印章图像中的印章区域图像。3.根据权利要求2所述的方法,其特征在于,所述基于HSI颜色空间过滤法,对所述待提取印章区域进行去噪处理,获得所述印章图像中的印章区域图像,包括:计算所述待提取印章区域中,各像素点的像素参数;基于所述像素参数,确定所述HSI颜色空间的印章色彩饱和度范围、印章色彩强度范围以及印章色彩波长范围;提取出同时满足所述印章色彩范围、所述印章色彩强度范围以及所述印章色彩波长范围的像素点,获得所述印章图像中的印章区域图像。4.根据权利要求1所述的方法,其特征在于,所述将所述印章区域图像输入至预先训练的文字检测模型,预测所述印章区域图像中的文字所属区域信息,包括:所述文字检测模型的特征提取网络提取所述印章区域图像中文字的文字特征;所述文字检测模型的编码器根据所述文字对应的位置编码和所述文字的文字特征,得到注意了所述文字与其它文字的位置关系的所述文字的特征向量;所述元器件识别模型的解码器根据所述文字的特征向量以及目标查询集合,得到所述目标查询集合的各类预测框的标识;所述元器件识别模型的识别头根据所述各类预测框的标识和所述文字的特征向量,预测所述印章区域图像中的文字所属区域信息。5.根据权利要求4所述的方法,其特征在于,所述提取所述印章区域图像中文字的文字特征,包括:通过所述特征提取网络对所述印章区域图像进行卷积和降采样处理,提取所述印...

【专利技术属性】
技术研发人员:林利祥朱以顺朱志芳吴国玥梁毅佟佳俊马景行
申请(专利权)人:广东电网有限责任公司广州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1