基于深度范例的中文文本识别方法技术

技术编号：41833164 阅读：23 留言：0更新日期：2024-06-27 18:17

本发明专利技术公开了一种基于深度范例的中文文本识别方法；该方法主要包含两个部分：范例查询阶段与范例重排序阶段。范例查询阶段主要用于预测识别结果并且定位每一个文字在图像上的位置，同时使用训练集组建成范例库，该范例库包含了每个文字的全局特征和局部特征；范例重排序阶段，主要针对范例查询阶段识别错误的情况，利用在范例库中检索与重排序得到更加准确的结果，纠正形近字的识别错误。本发明专利技术通过两个阶段的结合，成功提升了中文文本识别的准确性和效率，为中文识别领域的技术发展贡献了有力的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及场景文本内容理解过程中的文字识别，尤其涉及一种基于深度范例的中文文本识别方法。

技术介绍

1、中文文本识别，是指对场景文本图片上的中文文字进行识别，获取到该图片上的文字。其中，场景文本图片是指生活中的各种各样的场景图像，比如商品包装、门店招牌、菜单、车辆、屏幕和海报。中文文字表示中文字符，数字与字母的组合。文字识别是图像转化为文本的重要步骤，在文字内容理解领域有着广泛的应用和研究前景。

2、传统的字符识别主要将识别任务作为分类任务，例如英文为36个类别，中文3000+个类别。该类方法首先通过cnn网络或者transformer网络提取图像的特征，随后通过ctc或者attention的结构获取每个文字的预测结构。近年来通过加入语言模型，对识别的结果进行调优，使得结果有很大的提升。由于中文的形近字较多，传统的分类方式识别模型在中文的识别效果上较差。同时，由于中文中每个文字的结构较为复杂，增加了定位单字上的难度。

3、在中文识别上，近年来有许多方法通过拆分单字的结构方法进行优化。例如通过将文字拆分成不同的偏旁，根据偏旁对文字进行编码，形成字符的唯一编码表示，网络通过预测编码来得到识别结构；或者通过拆分笔画的方式将文字转化为笔画的编码，再以该编码进行网络的预测。该类方法都需要进行额外的设计，通常针对单个字符的识别问题，针对文本行或者单词的识别上需要借助单字的定位算法，无法直接进行识别任务。

4、近年来针对文本识别提出了类似检索的方法，其利用图像匹配的思路进行识别任务。详细来说，利用已有的

技术实现思路

1、为了解决上述现有技术中的中文形近字识别问题，本专利技术提出了一种基于深度范例的中文文本识别方法；本专利技术主要包括两个关键组成部分：范例查询网络和范例重排序网络；范例查询网络用于预测文本识别结果，并准确定位图像上每个文字的位置；同时利用训练集构建范例库，该库包含每个文字的全局特征和局部特征，为提高识别精度提供基础；范例重排序网络针对范例查询网络可能存在的识别错误情况进行优化；通过在范例库中检索和重排序，实现更精确的结果，尤其是在处理形状相似字的识别错误方面具有显著效果。本专利技术综合应用这两个网络结构，成功提升了中文文本识别的准确性和效率，为中文识别领域的技术发展贡献了有力的解决方案。

2、本专利技术的技术方案具体介绍如下。

3、本专利技术提供一种基于深度范例的中文文本识别方法，包括以下两个阶段：

4、步骤一、范例查询阶段

5、首先将场景文本图像输入到特征提取网络中提取特征；然后利用transformer的编码器结构增强特征提取网络提取的特征；随后在transformer的解码器结构中学习l个维度为c的文字特征向量，每个向量表示一个文字的全局特征，将学习到的文字特征向量送入到预测头中得到初步的文字识别结果；同时在transformer的解码器结构中通过注意力机制得到每个文字最相关的若干个局部特征；最后将每个文字的全局特征和局部特征作为要素存入到范例库中；

6、步骤二、范例重排序阶段

7、根据范例查询阶段的预测头对每个文字的识别结果，对于分类置信度低于阈值t的文字，首先通过全局特征在范例库中搜索最相似的若干范例作为备选，随后结合局部特征对这些范例进行重排序，选取分数最高的范例的标签作为该文字的识别结果，重复重排序过程得到一个图片上的所有文字的识别结果。

8、本专利技术中，步骤一中，在将场景文本图像输入到特征提取模块前，对图像进行缩放，以减少不同分辨率的文字对网络的影响。

9、本专利技术中，步骤一中，特征提取网络为cnn网络。

10、本专利技术中，步骤一中，transformer编码器的特征维度c为256或者512，transformer编码器的数量为3个或6个，transformer解码器的数量为2个或3个，文字特征向量的数量l为25或50。。

11、本专利技术中，步骤一中，预测头采用一个或两个全连阶层实现。

12、本专利技术中，步骤二中，首先通过全局特征在范例库中直接进行排序操作，得到初始化的排序队列，随后通过投影变换projection将全局特征和局部特征进行变换后在初始化的排序队列中进行重排序，将重排序的结果和直接排序操作获得的排序结果进行融合得到文字的识别结果。

13、本专利技术中，通过全局特征与范例库中的全局特征计算余弦距离，取top10的范例作为初始化的排序队列。

14、本专利技术中，融合后的相似度s如下列公式所示：

15、s＝sranking*λ+sreranking*(1-λ)

16、其中sranking表示直接排序操作的排序结果的相似度，sreranking表示重排序的相似度，λ为两个相似度的权重。

17、本专利技术中，范例库通过训练数据集构建或者通过生成的方式扩展构建。

18、和现有技术相比，本专利技术的有益效果在于：

19、(1)本专利技术提出的方法首先是针对样例发现网络中分类置信度较低的文字，减少需要检索的文字数量。同时通过全局特征筛选出一部分字库中相似的形近字后再进行重排序，减少重排序所需要的字库检索范围，因此能有效降低资源占用。

20、(2)本专利技术提出了一种基于深度范例的中文文本识别方法，其能成功提升中文文本识别的准确性和效率，为中文识别领域的技术发展贡献了有力的解决方案。同时，可以通过添加范例库来不断优化识别结果，而不需要重新训练模型，增加模型的可扩展性。

本文档来自技高网...

【技术保护点】

1.一种基于深度范例的中文文本识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，在将场景文本图像输入到特征提取模块前，对图像进行缩放，以减少不同分辨率的文字对网络的影响。

3.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，特征提取网络为CNN网络。

4.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，Transformer编码器的特征维度C为256或者512，Transformer编码器的数量为3个或6个，Transformer解码器的数量为2个或3个，文字特征向量的数量L为25或50。

5.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，预测头采用一个或两个全连阶层实现。

6.根据权利要求1所述的中文文本识别方法，其特征在于，步骤二中，首先通过全局特征在范例库中直接进行排序操作，得到初始化的排序队列，随后通过投影变换Projection将全局特征和局部特征进行变换后在初始化的排序队列中进行重排序，将重排序的结果和直接排序操作获得的

7.根据权利要求6所述的中文文本识别方法，其特征在于，通过全局特征与范例库中的全局特征计算余弦距离，取Top10的范例作为初始化的排序队列。

8.根据权利要求6所述的中文文本识别方法，其特征在于，融合后的相似度S如下列公式所示：

9.根据权利要求1所述的中文文本识别方法，其特征在于，范例库通过训练数据集构建或者通过生成的方式扩展构建。

...

【技术特征摘要】

1.一种基于深度范例的中文文本识别方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，特征提取网络为cnn网络。

4.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，transformer编码器的特征维度c为256或者512，transformer编码器的数量为3个或6个，transformer解码器的数量为2个或3个，文字特征向量的数量l为25或50。

5.根据权利要求1所述的中文文本识别方法，其特征在于，步骤一中，预测头采用一个或两...

【专利技术属性】
技术研发人员：周钊，杜响成，郑莹斌，金城，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人