一种文字识别模型的训练方法及装置制造方法及图纸

技术编号：42418774 阅读：18 留言：0更新日期：2024-08-16 16:35

本申请提供文字识别模型的训练方法，包括：获取待识别对象中的真实文字信息，并通过初始文字识别模型的预测模块对待识别对象中的文字进行识别，得到对待识别对象中的文字的预测结果信息，根据待识别对象中的文字的预测结果信息和待识别对象中的文字的真实文字信息，通过初始文字识别模型的特征关系模块生成特征关系,通过初始文字识别模型的注意力模块对特征关系进行处理，得到待识别对象中的文字的语义形近信息，将包含待识别场景文字的图像和语义形近信息输入初始文字识别模型，对初始文字识别模型进行训练，得到目标文字识别模型。解决模型训练未充分利用语义信息、需要大量场景文字问题，取得降低计算复杂度，提高识别准确率的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体而言，涉及一种文字识别模型的训练方法及装置。

技术介绍

1、目前，在银行日常工作中，会收到大量用户手工填写的票据，例如支票、转账支票、进账单等。这类票据能否正确识别是银行业务能否电子化、线上化的关键。一旦识别不准确将会造成严重的事故，破坏银行的信誉。现有光学字符识别(ocr)技术的准确率难以满足银行业务的要求。

2、现有技术中存在的问题：1、未充分利用语义信息；2、增量训练需要大量场景文字数据，非专业场景文字研发机构自有数据难以满足训练要求。

3、针对上述问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种文字识别模型的训练方法，以至少解决相关技术中在金融领域，对文字识别模型训练时，未充分利用语义信息以及增量训练需要大量场景文字数据，非专业场景文字研发机构自有数据难以满足训练要求的问题。

2、根据本专利技术的一个实施例，提供了一种文字识别模型的训练方法，包括：获取待识别对象中的真实文字信息，并通过初始文字识别模型的预测模块对所述待识别对象中的文字进行识别，得到对待识别对象中的文字的预测结果信息；根据待识别对象中的文字的预测结果信息和待识别对象中的文字的真实文字信息，通过所述初始文字识别模型的特征关系模块生成特征关系,其中，所述特征关系表征所述预测结果信息和所述真实文字信息之间的依赖关系；通过所述初始文字识别模型的注意力模块对所述特征关系进行处理，得到待识别对象中的文字的语义形近信息，其中

3、可选地，所述获取待识别对象中的真实文字信息，并通过初始文字识别模型的预测模块对所述待识别对象中的文字进行识别，得到对待识别对象中的文字的预测结果信息，包括：通过所述预测模块的光学字符识别层从所述待识别场景文字的图像中识别出文字特征；将所述文字特征输入所述预测模块的第一前馈神经网络，将所述待识别对象中的真实文字信息对应的标签信息输入所述第一前馈神经网络，得到所述第一前馈神经网络输出的由所述待识别对象中的文字的预测结果信息和所述待识别对象中的真实文字信息组成的键值对。

4、可选地，所述根据待识别对象中的文字的预测结果信息和待识别对象中的文字的真实文字信息，通过所述初始文字识别模型的特征关系模块生成特征关系,其中，所述特征关系表征所述预测结果信息和所述真实文字信息之间的依赖关系，包括：将所述键值对输入所述特征关系模块的第二前馈神经网络，得到所述第二前馈神经网络输出的所述待识别对象中的文字的预测结果信息和所述待识别对象中的真实文字信息之间的对应关系。

5、可选地，所述通过所述初始文字识别模型的注意力模块对所述特征关系进行处理，得到待识别对象中的文字的语义形近信息，包括：将所述特征关系输入所述注意力模块的形近引导的注意力层，得到待识别场景文字的形近字相似度；将所述特征关系输入所述注意力模块的语义引导的注意力层，得到待识别场景文字的语义相似度；将所述待识别场景文字的形近字相似度和所述待识别场景文字的语义相似度相加，得到所述待识别场景文字的语义形近信息。

6、可选地，所述将所述特征关系输入所述注意力模块的形近引导的注意力层，得到待识别场景文字的形近字相似度，包括：将所述特征关系分割成多个非重叠窗口；在每个所述非重叠窗口中独立执行空间前缀引导的注意力，得到所述待识别场景文字的形近字相似度；其中，所述空间前缀为所述待识别场景文字的文字预测结果信息或所述待识别场景文字的真实文字内容的字形信息。

7、可选地，所述将所述特征关系输入所述注意力模块的语义引导的注意力层，得到待识别场景文字的语义相似度，包括：在所述关系特征上执行标准注意力引导的注意力，得到所述待识别场景文字的语义相似度。

8、根据本专利技术的另一个实施例，还提供了一种文字识别模型的训练装置，包括：获取单元，用于获取待识别对象中的真实文字信息，并通过初始文字识别模型的预测模块对所述待识别对象中的文字进行识别，得到对待识别对象中的文字的预测结果信息；特征关系单元，用于根据待识别对象中的文字的预测结果信息和待识别对象中的文字的真实文字信息，通过所述初始文字识别模型的特征关系模块生成特征关系,其中，所述特征关系表征所述预测结果信息和所述真实文字信息之间的依赖关系；语义形近单元，用于通过所述初始文字识别模型的注意力模块对所述特征关系进行处理，得到待识别对象中的文字的语义形近信息，其中，所述语义形近信息表征待识别场景文字的语义与待识别场景文字的形近字之间的依赖关系；训练单元，用于将包含所述待识别场景文字的图像和所述语义形近信息输入所述初始文字识别模型，对所述初始文字识别模型进行训练，得到目标文字识别模型。

9、可选地，所述语义形近单元包括：形近单元，用于将所述特征关系输入所述注意力模块的形近引导的注意力层，得到待识别场景文字的形近字相似度；语义单元，用于将所述特征关系输入所述注意力模块的语义引导的注意力层，得到待识别场景文字的语义相似度；计算单元，用于将所述待识别场景文字的形近字相似度和所述待识别场景文字的语义相似度相加，得到所述待识别场景文字的语义形近信息。

10、根据本专利技术的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被处理器运行时执行上述任一项方法实施例中的步骤。

11、根据本专利技术的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

12、通过本专利技术，可以解决相关技术中在金融领域，对文字识别模型训练时，未充分利用语义信息以及增量训练需要大量场景文字数据，非专业场景文字研发机构自有数据难以满足训练要求的问题，取得降低文字识别模型计算复杂度，提高文字识别模型训练速度、识别准确率，实现可插拔、灵活使用的效果。

本文档来自技高网...

【技术保护点】

1.一种文字识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别对象中的真实文字信息，并通过初始文字识别模型的预测模块对所述待识别对象中的文字进行识别，得到对待识别对象中的文字的预测结果信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据待识别对象中的文字的预测结果信息和待识别对象中的文字的真实文字信息，通过所述初始文字识别模型的特征关系模块生成特征关系,其中，所述特征关系表征所述预测结果信息和所述真实文字信息之间的依赖关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述初始文字识别模型的注意力模块对所述特征关系进行处理，得到待识别对象中的文字的语义形近信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述特征关系输入所述注意力模块的形近引导的注意力层，得到待识别场景文字的形近字相似度，包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述特征关系输入所述注意力模块的语义引导的注意力层，得到待识别场景文字的语义相似度，包括：

...

【技术特征摘要】

1.一种文字识别模型的训练方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于...

【专利技术属性】
技术研发人员：王熙辰，裴亚民，张洁，张彬，
申请(专利权)人：中国光大银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人