一种训练文字识别模型的方法及装置制造方法及图纸

技术编号：40265613 阅读：12 留言：0更新日期：2024-02-02 22:54

本说明书实施例涉及一种训练文字识别模型的方法及装置，方法包括：首先，将第一训练集中的任一目标图像输入到第一文字识别模型中，得到对于目标图像中各个字符属于特定字符类别的预测结果。然后，对于目标字符类别，根据预测结果中属于目标字符类别的第一字符数量，以及属于目标字符类别并且置信度大于第一阈值的第二字符数量，确定目标字符类别对应的目标学习状态值。接下来，根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值。然后，确定属于目标字符类别并且置信度大于目标类别阈值的目标字符，并将目标字符类别作为目标字符的标签，形成第二训练集。最后，基于第二训练集，对第二文字识别模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及人工智能领域，尤其涉及一种训练文字识别模型的方法及装置。

技术介绍

1、文字识别是一种将图像中的文字转换为可编辑的文本的技术。随着计算机视觉和人工智能的发展，文字识别在多个应用领域取得了长足的发展，例如，在键值对抽取、表格识别、实体抽取等多个应用领域都依赖于文字识别的准确率。

2、随着文字识别服务承接的任务越来越宽泛，线上数据越来越丰富，服务的准确率可能会逐渐下降。因此，文字识别模型需要持续优化迭代来保证生产上的准确率。人工标注线上数据进行模型训练将会耗费大量时间以及人力成本。因此，需要一种更好的方法，基于线上海量无标签数据来训练文字识别模型。

技术实现思路

1、本说明书一个或多个实施例描述了一种训练文字识别模型的方法及装置，可以提升伪标签的利用率和准确率，进而增强文字识别模型的准确率和泛化性能。

2、第一方面，提供了一种训练文字识别模型的方法，包括：

3、获取无标签的第一训练集以及当前的第一阈值，所述第一训练集中的任一图像包含若干字符；

4、将第一训练集中的任一目标图像输入到第一文字识别模型中，得到对于目标图像中各个字符属于特定字符类别的预测结果；

5、对于各个字符类别中的目标字符类别，根据所述预测结果中属于目标字符类别的第一字符数量，以及属于目标字符类别并且置信度大于第一阈值的第二字符数量，确定目标字符类别对应的目标学习状态值；

6、根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值；

7、确定属于目标字符类别并且置信度大于所述目标类别阈值的目标字符，并将所述目标字符类别作为所述目标字符的标签，形成第二训练集；

8、至少基于所述第二训练集，对第二文字识别模型进行第一训练。

9、在一种可能的实施方式中，根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值，包括：

10、根据目标学习状态值与各个字符类别对应的学习状态值中的最大值的比值，与所述第一阈值的乘积，确定目标字符类别对应的目标类别阈值。

11、在一种可能的实施方式中，在确定目标字符类别对应的目标类别阈值之前，所述方法还包括：

12、对各个字符类别对应的学习状态值进行归一化处理；

13、所述根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值，包括：

14、根据归一化之后的目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值。

15、在一种可能的实施方式中，所述第一文字识别模型和第二文字识别模型具有相同的模型结构；所述方法还包括：

16、基于第二文字识别模型的参数值，使用指数移动平均法更新所述第一文字识别模型的参数值。

17、在一种可能的实施方式中，还包括：

18、基于各个字符类别对应的学习状态值，更新所述第一阈值。

19、在一种可能的实施方式中，所述基于各个字符类别对应的学习状态值，更新所述第一阈值，包括：

20、根据各个字符类别对应的学习状态值的平均值，更新所述第一阈值。

21、在一种可能的实施方式中，还包括：

22、获取有标签的第三训练集；

23、所述至少基于所述第二训练集，对第二文字识别模型进行第一训练，包括：

24、基于所述第二训练集和第三训练集，对第二文字识别模型进行第一训练。

25、在一种可能的实施方式中，在将第一训练集中的任一目标图像输入到第一文字识别模型中之前，所述方法还包括：

26、基于所述第三训练集，对所述第一文字识别模型进行第二训练，对所述第二文字识别模型进行第三训练。

27、在一种可能的实施方式中，在将第一训练集中的任一目标图像输入到第一文字识别模型中之前，所述方法还包括：

28、对第一训练集中的任一图像进行数据增广操作；和/或

29、对第三训练集中的任一图像进行数据增广操作。

30、第二方面，提供了一种训练文字识别模型的装置，包括：

31、获取单元，配置为，获取无标签的第一训练集以及当前的第一阈值，所述第一训练集中的任一图像包含若干字符；

32、预测单元，配置为，将第一训练集中的任一目标图像输入到第一文字识别模型中，得到对于目标图像中各个字符属于特定字符类别的预测结果；

33、学习状态确定单元，配置为，对于各个字符类别中的目标字符类别，根据所述预测结果中属于目标字符类别的第一字符数量，以及属于目标字符类别并且置信度大于第一阈值的第二字符数量，确定目标字符类别对应的目标学习状态值；

34、类别阈值确定单元，配置为，根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值；

35、训练集确定单元，配置为，确定属于目标字符类别并且置信度大于所述目标类别阈值的目标字符，并将所述目标字符类别作为所述目标字符的标签，形成第二训练集；

36、第一训练单元，配置为，至少基于所述第二训练集，对第二文字识别模型进行第一训练。

37、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

38、第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

39、本说明书实施例提出的一种训练文字识别模型的方法及装置，将图像中的每个字符作为一个独立的样本进行选择，并根据模型的学习状态动态调整不同字符类别的阈值，以动态平衡后续的伪标签训练集中各个字符类别的训练样本数量，提升了伪标签的利用率和准确率，进而增强了文字识别模型的准确率和泛化性能。

本文档来自技高网...

【技术保护点】

1.一种训练文字识别模型的方法，包括：

2.根据权利要求1所述的方法，其中，根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值，包括：

3.根据权利要求1所述的方法，在确定目标字符类别对应的目标类别阈值之前，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述第一文字识别模型和第二文字识别模型具有相同的模型结构；所述方法还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求5所述的方法，其中，所述基于各个字符类别对应的学习状态值，更新所述第一阈值，包括：

7.根据权利要求1所述的方法，还包括：

8.根据权利要求7所述的方法，在将第一训练集中的任一目标图像输入到第一文字识别模型中之前，所述方法还包括：

9.根据权利要求7所述的方法，在将第一训练集中的任一目标图像输入到第一文字识别模型中之前，所述方法还包括：

10.一种训练文字识别模型的装置，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时

12.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种训练文字识别模型的方法，包括：

2.根据权利要求1所述的方法，其中，根据目标学习状态值与第一阈值，确定目标字符类别对应的目标类别阈值，包括：

3.根据权利要求1所述的方法，在确定目标字符类别对应的目标类别阈值之前，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述第一文字识别模型和第二文字识别模型具有相同的模型结构；所述方法还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求5所述的方法，其中，所述基于各个字符类别对应的学习状态值，更新所述第一阈值，包括：

7.根据权利要求1所述的方法，还包括：...

【专利技术属性】
技术研发人员：李晓玉，陈景东，杨铭，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人