基于文本检测和文本识别的手写体中文识别方法及系统技术方案

技术编号：44629585 阅读：4 留言：0更新日期：2025-03-17 18:25

本发明专利技术公开了基于文本检测和文本识别的手写体中文识别方法及系统，方法包括：将待识别文档图像，输入到训练后的文本检测模型中得到文本检测结果；训练后的文本检测模型对待识别文档图像先进行预处理操作，对预处理操作结果进行特征提取，对提取的特征进行特征融合，对融合特征进行行回归操作和概率图预测，基于预测的概率图生成文本框；将文本检测结果，输入到训练后的文本识别模型中，得到文本识别结果；对文本框内的文本区域图像进行预处理操作，对预处理后的文本区域图像进行图像增广处理，对增广处理后的图像执行块嵌入操作，对执行块嵌入操作后的图像进行全局细粒度特征提取，对提取的全局细粒度特征进行识别，得到文本识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文识别，特别是涉及基于文本检测和文本识别的手写体中文识别方法及系统。

技术介绍

1、计算机文本识别，俗称光学字符识别(optical character recognition,ocr)，是计算机视觉和模式识别的一个子领域，它是一种利用计算机对图片中包含的字符实例进行自动识别并处理成计算机可识别、人们可理解的信息的技术。随着人工智能尤其是计算机视觉技术的发展和普及，许多与文本识别相关的落地应用极大地方便了我们的生活，例如车牌识别、银行卡识别、发票识别、拍图识字等等。文本识别任务通常分为两个阶段：文本检测和文本识别。文本检测是目标检测的一个子任务，它用于获取图像中包含的多个文本实例的位置信息以作为文本识别任务的前端；文本识别用于将检测出来的文本实例识别并转录成计算机可识别且人们可理解的结构化数据。

2、随着计算机以及网络在大众之间的普及，智能阅卷在教育领域逐渐大放异彩，作为智能阅卷技术的重要基础的手写体智能识别也同样受到重要关注。该技术旨在把考生作答内容扫描图像转写为文本，作为智能阅卷的输入实现最终评分，并且能在一定程度上对不规则的手写体文本进行优化。手写体中文识别方法相比于普通的手写体识别方法，具有复杂性，具体体现在中文字符与其结构的多样性上。而二者相同处在于，因为不同书写者的书写风格千差万别，需要大规模的数据样本来覆盖各种书写风格及变体。

3、手写体中文识别方法主要包括传统机器学习方法以及基于深度学习的方法等等。早期的传统机器学习方法依赖于手工设计的特征提取器，这些特征提取器包括边缘检测

4、随着深度学习的发展，许多包括基于ctc、基于attention、基于transformer的深度学习方法在场景文本识别中取得了良好性能，这也使得手写体中文识别蓬勃发展。这些基于深度学习的模型可以自动从数据中学习到最优的特征表示，泛化能力也比较强，并且能够处理较大的数据集，这无疑简化了手写体中文识别的步骤，让实现端到端的手写体中文识别成为可能。但是目前的手写体中文识别都是以文本行识别为主，即只能预测一行文本图像的结果，并且由于目前基于ctc的方法所使用的rnn的性能问题，以及基于注意力(attention)机制的方法在检测长文本时会不可避免的出现注意力漂移，导致其会出现在长文本行场景下的漏识别、错识别等问题。

技术实现思路

1、为了解决现有技术的不足，本专利技术提供了基于文本检测和文本识别的手写体中文识别方法及系统；

2、一方面，提供了基于文本检测和文本识别的手写体中文识别方法，包括：

3、获取待识别文档图像；

4、将待识别文档图像，输入到训练后的文本检测模型中，得到文本检测结果；其中，训练后的文本检测模型对待识别文档图像先进行预处理操作，然后对预处理操作结果进行特征提取，然后对提取的特征进行特征融合，然后对融合特征进行行回归操作和概率图预测，最后基于预测的概率图生成文本框；

5、将文本检测结果，输入到训练后的文本识别模型中，得到文本识别结果；对文本框内的文本区域图像进行预处理操作，对预处理后的文本区域图像进行图像增广处理，对增广处理后的图像执行块嵌入操作，对执行块嵌入操作后的图像进行全局细粒度特征提取，对提取的全局细粒度特征进行识别，得到文本识别结果。

6、另一方面，提供了基于文本检测和文本识别的手写体中文识别系统，包括：

7、获取模块，其被配置为：获取待识别文档图像；

8、文本检测模块，其被配置为：将待识别文档图像，输入到训练后的文本检测模型中，得到文本检测结果；其中，训练后的文本检测模型对待识别文档图像先进行预处理操作，然后对预处理操作结果进行特征提取，然后对提取的特征进行特征融合，然后对融合特征进行行回归操作和概率图预测，最后基于预测的概率图生成文本框；

9、文本识别模块，其被配置为：将文本检测结果，输入到训练后的文本识别模型中，得到文本识别结果；对文本框内的文本区域图像进行预处理操作，对预处理后的文本区域图像进行图像增广处理，对增广处理后的图像执行块嵌入操作，对执行块嵌入操作后的图像进行全局细粒度特征提取，对提取的全局细粒度特征进行识别，得到文本识别结果。

10、再一方面，还提供了一种电子设备，包括：

11、存储器，用于非暂时性存储计算机可读指令；以及

12、处理器，用于运行所述计算机可读指令，

13、其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

14、再一方面，还提供了一种存储介质，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法。

15、再一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

16、上述技术方案具有如下优点或有益效果：

17、(1)对于页面级手写体识别，本方法提出检测与识别两阶段的方法，优良的检测模块不仅可以有效替代人工切分，而且新颖的识别模块也能对检测出的文本行进行更有效地识别。

18、(2)本专利技术针对页面手写体识别的检测文本行任务，设计了新颖的行回归模块，它可以直接利用融合特征图所含有的丰富的不同特征维度的信息，来获取文本行出现的位置，帮助模型更好地定位文本区域。

19、(3)本专利技术采用像素重组策略替代最终预测概率图时常用的插值上采样策略，有助于保留更多信息，提高检测性能。

20、(4)本专利技术在检测阶段的预处理中收缩标签区域，用于避免文本框黏连现象的出现，结合后处理能够有效帮助检测模型划分不同文本行区域。

21、(5)本专利技术在识别阶段提出了有效的全局细粒度特征提取模块，能够充分提取字符细粒度信息和图像全局信息。该模块堆叠了多级子模块，每个子模块中将分组卷积以及多头自注意力机制交替连接，子模块之间通过宽度下采样模块连接，从而使模型不仅能够利用字符细粒度的结构特征以及图像全局所提供的上下文信息，而且能充分获取文本行级别包含的丰富信息，进而更好地完成识别任务。

22、(6)本专利技术提出了一种新颖的序列损失函数，用于抑制最终识别结果中包含的负样本，辅助ctc解码器联合优化目标函数，有助于改善模型识别性能。

本文档来自技高网...

【技术保护点】

1.基于文本检测和文本识别的手写体中文识别方法，其特征是，包括：

2.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，所述训练后的文本检测模型，包括：

3.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，融合金字塔模块，包括：

4.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，所述行回归模块，包括：

5.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，所述概率图预测模块，包括：

6.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，

7.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，

8.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，

9.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，

10.基于文本检测和文本识别的手写体中文识别系统，其特征是，包括：

【技术特征摘要】

1.基于文本检测和文本识别的手写体中文识别方法，其特征是，包括：

2.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，所述训练后的文本检测模型，包括：

3.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，融合金字塔模块，包括：

4.如权利要求1所述的基于文本检测和文本识别的手写体中文识别方法，其特征是，所述行回归模块，包括：

5.如权利要求1所述的基于文本检测和文本识别的手写体中文识别...

【专利技术属性】
技术研发人员：许信顺，金冉秋，罗昕，陈振铎，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人