文本识别方法、装置、设备、存储介质和计算机程序产品制造方法及图纸

技术编号：42058075 阅读：23 留言：0更新日期：2024-07-16 23:36

本申请实施例公开了一种文本识别方法、装置、设备、存储介质和计算机程序产品，对待识别图像进行编码，得到编码特征；对编码特征进行解码，得到待识别图像中的各文本片段；其中，任一文本片段是至少基于该任一文本片段在待识别图像中的位置信息对编码特征进行解码得到；该任一文本片段在待识别图像中的位置信息是通过对编码特征进行解码得到的；解码得到的该任一文本片段在待识别图像中的位置信息与该任一文本片段在待识别图像中的真实位置信息之间的偏差在目标范围内。本申请在解码各个文本片段的位置信息时，允许解码得到的文本片段的位置信息与真实位置信息存在一定的偏差，该偏差控制在目标范围内，从而提高了文本解码结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，更具体地说，涉及一种文本识别方法、装置、设备、存储介质和计算机程序产品。

技术介绍

1、文本识别是指将图片上的文字内容识别出来，变成可编辑的文本序列，便于人们对图片中的文字信息进行提取，并进行进一步的处理，比如编辑校正、抽取关键信息、文本翻译等。

2、传统文本识别方法是通过独立的文本检测模型和文字识别模型实现，即先通过文本检测模型检测图片中的文字区域，将文字区域裁剪下来后输入文字识别模型，得到文本识别结果。该方法容易产生累积误差，从而导致文本识别的准确性较低。

3、为了提高文本识别的准确性，有方案提出采用端到端的网络联合建模文字检测与文字识别，这种方式在一定程度上提高了文本识别准确率，但文本识别准确率仍有待进一步提高。

技术实现思路

1、有鉴于此，本申请提供了一种文本识别方法、装置、设备、存储介质和计算机程序产品，以提高文本识别准确率。

2、为了实现上述目的，现提出的方案如下：

3、一种文本识别方法，包括：

4、对待识别图像进行编码，得到编码特征；

5、对所述编码特征进行解码，得到所述待识别图像中的各文本片段；其中，任一文本片段是至少基于所述任一文本片段在所述待识别图像中的位置信息对所述编码特征进行解码得到；所述任一文本片段在所述待识别图像中的位置信息是通过对所述编码特征进行解码得到的；解码得到的所述任一文本片段在所述待识别图像中的位置信息与所述任一文本片段在所述待识别图像中的真实位置信息之间的偏差在目标范围内。

6、上述方法，可选的，所述目标范围为[-err，err]；所述err大于或等于1。

7、上述方法，可选的，所述err的最大值为：所述待识别图像中单个字符的平均高度的一半的整数倍。

8、上述方法，可选的，对待识别图像进行编码，以及对所述编码特征进行解码的过程通过文本识别模型实现；

9、所述文本识别模型通过如下方式训练得到：

10、通过所述文本识别模型对样本图像进行编码，得到编码特征；对所述样本图像的编码特征进行解码，得到所述样本图像中的各文本片段；其中，所述样本图像中的任一文本片段是至少基于该任一文本片段在所述样本图像中的位置信息对所述样本图像的编码特征进行解码得到；所述样本图像中的任一文本片段在所述样本图像中的位置信息是通过对所述样本图像的编码特征进行解码得到的；

11、至少基于所述样本图像的每个文本片段的文本损失和位置损失对所述文本识别模型的参数进行更新；所述样本图像的每个文本片段的位置损失是根据与该文本片段的位置标签的偏差在所述目标范围内的各个位置标签计算得到的。

12、上述方法，可选的，所述文本识别模型对所述样本图像的编码特征进行解码得到的是所述样本图像中的每个文本片段的外接矩形的每个特征点属于各个位置标签的概率，任一特征点属于各个位置标签的概率表征所述任一特征点的位置信息；

13、所述样本图像的每个文本片段的位置损失通过如下方式确定：

14、对于任一特征点，确定与所述任一特征点的位置标签的偏差在所述目标范围内的各个目标位置标签；

15、将所述任一特征点属于各个目标位置标签的概率加权求和，得到融合概率；其中，每个目标位置标签与所述任一特征点的位置标签之间的距离越大，该目标位置标签的权重越小；

16、基于所述融合概率进行损失计算，得到所述任一特征点的位置损失；

17、将同一文本片段的外接矩形的各个特征点的位置损失融合，得到各个文本片段的位置损失。

18、上述方法，可选的，确定与所述任一特征点的位置标签的偏差在所述目标范围内的各个目标位置标签的权重的过，包括：

19、基于以所述任一特征点的位置标签为均值，以预设值为方差的高斯分布函数确定与所述任一特征点的位置标签的偏差在所述目标范围内的各个目标位置标签的权重。

20、上述方法，可选的，所述高斯分布函数的方差小于或等于所述样本图像中单个字符的平均高度的一半。

21、上述方法，可选的，至少基于所述任一文本片段在所述待识别图像中的位置信息对所述编码特征进行解码，包括：

22、至少基于所述任一文本片段在所述待识别图像中的位置信息对所述编码特征进行自回归解码；

23、所述方法还包括：

24、获得至少部分已解码字符在自回归解码过程中对所述编码特征的注意力权重矩阵；每个已解码字符对所述编码特征的注意力权重矩阵由该已解码字符对所述编码特征中的各个元素的注意力权重构成；

25、基于所述至少部分已解码字符对所述编码特征的注意力权重矩阵，对所述编码特征进行处理，获得所述至少部分已解码字符对应的掩码。

26、上述方法，可选的，所述基于所述至少部分已解码字符对所述编码特征的注意力权重矩阵，对所述编码特征进行处理，包括：

27、将所述至少部分已解码字符中的各个已解码字符对所述编码特征的注意力权重矩阵，以及所述编码特征融合，得到融合特征；所述融合特征的尺寸与所述待识别图像的尺寸相同；

28、将所述融合特征由多维压缩为1维，得到压缩后特征；所述压缩后特征的尺寸与所述融合特征的尺寸相同；

29、对所述压缩后特征进行归一化处理，得到所述掩码。

30、上述方法，可选的，所述将所述至少部分已解码字符中的各个已解码字符对所述编码特征的注意力权重矩阵，以及所述编码特征融合，包括：

31、将所述至少部分已解码字符中的各个已解码字符对所述编码特征的注意力权重矩阵求平均，得到均值注意力权重矩阵；

32、将所述均值注意力权重矩阵和所述编码特征映射到相同的维度并求和，得到所述融合特征。

33、一种模型训练方法，包括：

34、通过文本识别模型对样本图像进行编码，得到编码特征；对所述编码特征进行解码，得到所述样本图像中的各文本片段；其中，任一文本片段是至少基于所述任一文本片段在所述样本图像中的位置信息对所述编码特征进行解码得到；所述任一文本片段在所述样本图像中的位置信息是通过对所述编码特征进行解码得到的；

35、至少基于所述样本图像的每个文本片段的文本损失和位置损失对所述文本识别模型的参数进行更新；每个文本片段的位置损失是根据与该文本片段的位置标签的偏差在所述目标范围内的各个位置标签计算得到的。

36、上述方法，可选的，至少基于所述任一文本片段在所述样本图像中的位置信息对所述编码特征进行解码，包括：

37、至少基于所述任一文本片段在所述样本图像中的位置信息对所述编码特征进行自回归解码；

38、所述方法还包括：

39、通过掩码网络获得至少部分已解码字符在自回归解码过程中对所述编码特征的注意力权重矩阵；每个已解码字符对所述编码特征的注意力权重矩阵由该已解码字符对所述编码特征中的各个元素的注意力权重构成；基于所述至少部分本文档来自技高网...

【技术保护点】

1.一种文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对待识别图像进行编码，以及对所述编码特征进行解码的过程通过文本识别模型实现；

3.根据权利要求2所述的方法，其特征在于，所述文本识别模型对所述样本图像的编码特征进行解码得到的是所述样本图像中的每个文本片段的外接矩形的每个特征点属于各个位置标签的概率，任一特征点属于各个位置标签的概率表征所述任一特征点的位置信息；

4.根据权利要求3所述的方法，其特征在于，确定与所述任一特征点的位置标签的偏差在所述目标范围内的各个目标位置标签的权重的过程，包括：

5.根据权利要求1所述的方法，其特征在于，至少基于所述任一文本片段在所述待识别图像中的位置信息对所述编码特征进行解码，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少部分已解码字符对所述编码特征的注意力权重矩阵，对所述编码特征进行处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述至少部分已解码字符中的各个已解码字符对所述编码特征的注意力权重矩阵，以及所述编码特征融合，包括：

8.一种模型训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，至少基于所述任一文本片段在所述样本图像中的位置信息对所述编码特征进行解码，包括：

10.一种文本识别装置，其特征在于，包括：

11.一种模型训练装置，其特征在于，包括：

12.一种文本识别设备，其特征在于，包括存储器和处理器；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的文本识别方法的各个步骤和/或实现如权利要求8-9任一项所述的文本识别模型训练方法的各个步骤。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时，实现如权利要求1-7中任一项所述的文本识别方法的各个步骤和/或实现如权利要求8-9任一项所述的文本识别模型训练方法的各个步骤。

...

【技术特征摘要】

1.一种文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对待识别图像进行编码，以及对所述编码特征进行解码的过程通过文本识别模型实现；

4.根据权利要求3所述的方法，其特征在于，确定与所述任一特征点的位置标签的偏差在所述目标范围内的各个目标位置标签的权重的过程，包括：

5.根据权利要求1所述的方法，其特征在于，至少基于所述任一文本片段在所述待识别图像中的位置信息对所述编码特征进行解码，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少部分已解码字符对所述编码特征的注意力权重矩阵，对所述编码特征进行处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述至少部分已...

【专利技术属性】
技术研发人员：牛雪静，陈明军，刘辰宇，殷保才，殷兵，刘聪，王士进，胡国平，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人