端到端文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:36354186 阅读:47 留言:0更新日期:2023-01-14 18:10
本公开提供了一种端到端文本识别方法、装置、设备及存储介质,可以应用于深度学习技术领域和金融技术领域。该方法包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,第一特征图像中包括待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对第一特征图像进行校正处理,得到第二特征图像;将第二特征图像输入文本识别网络,输出与待测图像对应的文本信息。输出与待测图像对应的文本信息。输出与待测图像对应的文本信息。

【技术实现步骤摘要】
端到端文本识别方法、装置、设备及存储介质


[0001]本公开涉及深度学习
和金融
,尤其涉及一种端到端文本识别方法、装置、设备、介质和程序产品。

技术介绍

[0002]相关技术中,针对任意形状的端到端的文本检测与识别方法,主要存在以下缺陷:由于文本分辨率低,存在很多低分辨率的图像,对文本检测带来较大的影响;由于文本拍摄者比较随意,可能产生曝光、抖动的情况,致使检测识别准确率低;由于文本含有印章等不规则形状,对后续文字的识别效果有着关键的影响,从而影响了文本识别的准确率。

技术实现思路

[0003]鉴于上述问题,本公开提供了一种端到端文本识别方法、装置、设备、介质和程序产品。
[0004]根据本公开的第一个方面,提供了一种端到端文本识别方法,包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,上述第一特征图像中包括上述待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像;将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息。
[0005]根据本公开的实施例,上述将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,包括:将待测图像输入特征提取网络,利用分辨率注意力机制分别提取上述局部特征图像和上述全局特征图像;将上述局部特征图像和上述全局特征图像进行拼接,得到上述第一特征图像。
[0006]根据本公开的实施例,上述分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,上述将待测图像输入特征提取网络,利用分辨率注意力机制分别提取上述局部特征图像和上述全局特征图像,包括:将待测图像输入特征提取网络,按照预设分配参数,将上述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合;利用上述第一分辨率注意力机制对上述局部特征集合进行处理,得到上述局部特征图像;利用平均池化层和上述第二分辨率注意力机制对上述全局特征集合进行处理,得到上述全局特征图像。
[0007]根据本公开的实施例,上述将待测图像输入特征提取网络,按照预设分配参数,将上述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合,包括:基于多头注意力机制,按照上述预设分配参数将多头注意力机制的头部数量进行分组,得到上述第一分辨率注意力机制的特征数量和上述第二分辨率注意力机制的特征数量;按照上述第一分辨率注意力机制的特征数量,从上述待测图像的全部特征中确定上述局部特征集合;按照上述第二分辨率注意力机制的特征数量,从上述待测图像的全部特征中确定上述全局特征集合。
[0008]根据本公开的实施例,上述利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像,包括:从上述控制点定位网络获取预测基准点集合;根据上述预测基准点集合生成校正参数曲线和采样网络;利用上述采样网络对上述第一特征图像进行采样,得到控制点集合;利用上述校正参数曲线对上述控制点集合进行校正处理,得到上述第二特征图像。
[0009]根据本公开的实施例,上述控制点集合中包括n个控制点,上述利用上述校正参数曲线对上述控制点集合进行校正处理,得到上述第二特征图像,包括:针对第i个控制点,根据上述控制点的坐标信息和上述校正参数曲线,确定目标偏移量;根据上述控制点的坐标信息和上述目标偏移量,确定上述控制点在校正之后的坐标信息;根据全部n个控制点在校正之后的坐标信息和上述n个控制点,生成上述第二特征图像,其中,1≤i≤n,i、n均为正整数。
[0010]根据本公开的实施例,上述端到端文本识别方法还包括:利用上述校正参数曲线的中心点,对上述n个控制点在校正之后的坐标信息进行优化处理,得到优化后的控制点集合;根据上述优化后的控制点集合,生成上述第二特征图像。
[0011]根据本公开的实施例,上述将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息,包括:利用文本识别网络中的编码器提取上述第二特征图像中的时序特征向量;利用上述文本识别网络中的解码器对上述时序特征向量进行处理,得到与上述待测图像对应的文本信息。
[0012]根据本公开的实施例,上述端到端文本识别方法还包括:利用数据切分的方法对初始样本图像集进行处理,得到训练样本图像集和测试样本图像集;利用上述训练样本图像集和模型损失函数训练初始端到端文本识别模型,得到经过训练的端到端文本识别模型;利用上述测试样本图像集验证经过训练的端到端文本识别模型的收敛程度,在上述收敛程度满足预设条件的情况下,得到训练好的端到端文本识别模型,其中,上述训练好的端到端文本识别模型包括上述特征提取网络、上述控制点定位网络和上述文本识别网络。
[0013]根据本公开的实施例,上述模型损失函数包括文本检测损失函数和文本识别损失函数,上述端到端文本识别方法还包括:根据分类参数、校正曲线的中心度参数和控制点定位网络的偏移量参数,构建上述文本检测损失函数;根据解码顺序参数构建文本识别损失函数;根据上述文本检测损失函数和上述文本识别损失函数,构建上述模型损失函数。
[0014]本公开的第二方面提供了一种端到端文本识别装置,包括:提取模块、校正模块和检测模块。其中,提取模块,用于将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,上述第一特征图像中包括上述待测图像中的局部特征图像和全局特征图像。校正模块,用于利用控制点定位网络对上述第一特征图像进行校正处理,得到第二特征图像。检测模块,用于将上述第二特征图像输入文本识别网络,输出与上述待测图像对应的文本信息。
[0015]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
[0016]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
[0017]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
[0018]根据本公开提供的端到端文本识别方法、装置、设备、介质和程序产品,将待测图像输入特征提取网络,利用分辨率注意力机制,能够得到含有高分辨率局部特征像和低分辨率全局特征图像的第一特征图像,可以解决对于低分辨率图像识别准确率低的问题,利用控制点定位网络对第一特征图像进行校正处理,能够得到校正后的第二特征图像,最后将校正后的第二特征图像输入文本识别网络,输出与待测图像对应的文本信息,由于对第一特征图像先进行校正处理,再进行文本识别,可以提高文本识别准确率。
附图说明
[0019]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0020]图1示意性示出了根据本公开实施例的端到端文本识别方法、装置、设备、介质和程序产品的应用场景图;
[0021]图2示意性示出了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端文本识别方法,包括:将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,其中,所述第一特征图像中包括所述待测图像中的局部特征图像和全局特征图像;利用控制点定位网络对所述第一特征图像进行校正处理,得到第二特征图像;将所述第二特征图像输入文本识别网络,输出与所述待测图像对应的文本信息。2.根据权利要求1所述的方法,其中,所述将待测图像输入特征提取网络,利用分辨率注意力机制提取第一特征图像,包括:将待测图像输入特征提取网络,利用分辨率注意力机制分别提取所述局部特征图像和所述全局特征图像;将所述局部特征图像和所述全局特征图像进行拼接,得到所述第一特征图像。3.根据权利要求2所述的方法,其中,所述分辨率注意力机制包括第一分辨率注意力机制和第二分辨率注意力机制,所述将待测图像输入特征提取网络,利用分辨率注意力机制分别提取所述局部特征图像和所述全局特征图像,包括:将待测图像输入特征提取网络,按照预设分配参数,将所述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合;利用所述第一分辨率注意力机制对所述局部特征集合进行处理,得到所述局部特征图像;利用平均池化层和所述第二分辨率注意力机制对所述全局特征集合进行处理,得到所述全局特征图像。4.根据权利要求3所述的方法,其中,所述将待测图像输入特征提取网络,按照预设分配参数,将所述待测图像的全部特征进行分组,得到局部特征集合和全局特征集合,包括:基于多头注意力机制,按照所述预设分配参数将多头注意力机制的头部数量进行分组,得到所述第一分辨率注意力机制的特征数量和所述第二分辨率注意力机制的特征数量;按照所述第一分辨率注意力机制的特征数量,从所述待测图像的全部特征中确定所述局部特征集合;按照所述第二分辨率注意力机制的特征数量,从所述待测图像的全部特征中确定所述全局特征集合。5.根据权利要求1所述的方法,其中,所述利用控制点定位网络对所述第一特征图像进行校正处理,得到第二特征图像,包括:从所述控制点定位网络获取预测基准点集合;根据所述预测基准点集合生成校正参数曲线和采样网络;利用所述采样网络对所述第一特征图像进行采样,得到控制点集合;利用所述校正参数曲线对所述控制点集合进行校正处理,得到所述第二特征图像。6.根据权利要求5所述的方法,其中,所述控制点集合中包括n个控制点,所述利用所述校正参数曲线对所述控制点集合进行校正处理,得到所述第二特征图像,包括:针对第i个控制点,根据所述控制点的坐标信息和所述校正参数曲线,确定目标偏移量;根据所述控制点的坐标信息和所述目标偏移量,确定所述控制点在校正之后...

【专利技术属性】
技术研发人员:冯如冒卜颖王茹楠杨晓诚
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1