模型训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号：34726779 阅读：25 留言：0更新日期：2022-08-31 18:14

本公开涉及一种模型训练方法、装置、存储介质及电子设备。模型训练方法，包括：确定待合成的文本的背景图，所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种；确定待合成的文本；将所述文本和所述背景图进行合成，得到合成文本图像；根据所述合成文本图像，得到训练数据集，根据所述训练数据集，对模型进行训练，以得到文本检测模型。通过本公开训练得到的文本检测模型，能够很好的识别文档类的文本数据，识别准确度高。识别准确度高。识别准确度高。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备

[0001]本公开涉及计算机
，具体地，涉及一种模型训练方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能技术的发展，光学字符识别(Optical Character Recognition，OCR)技术应运而生，光学字符识别OCR是指对包含文本资料的图像资料文件(可简称为文本图像)进行分析识别处理，获取文字及版面信息的技术。
[0003]在实际应用中，通常是训练一个OCR文本检测模型来实现对文本图像的文本检测，以获取文本图像的文字及版面信息。OCR文本检测模型的训练通常需要大量的文本图像作为训练语料，而往往现有的真实文本图像的数量不能满足训练要求，例如在需要大量文本检测数据的情况下，如果采用人工标注的方式，会耗费大量的人力物力，且效率较低。
[0004]因此，为快速且容易的获取到足够数量的文本图像，如何合成文本图像是有待解决的问题。

技术实现思路

[0005]本公开的目的是提供一种模型训练方法、装置、存储介质及电子设备。
[0006]为了实现上述目的，第一方面，本公开提供一种模型训练方法，包括：
[0007]确定待合成的文本的背景图，所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种；
[0008]确定待合成的文本；
[0009]将所述文本和所述背景图进行合成，得到合成文本图像；
[0010]根据所述合成文本图像，得到训练数据集，根据所述训练数据集，对模型进行训练，...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：确定待合成的文本的背景图，所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种；确定待合成的文本；将所述文本和所述背景图进行合成，得到合成文本图像；根据所述合成文本图像，得到训练数据集，根据所述训练数据集，对模型进行训练，以得到文本检测模型。2.根据权利要求1所述的方法，其特征在于，若所述背景图包括图像背景图，所述确定待合成的文本的背景图，包括：将获取的卡通图像放大至文本所需的尺寸，得到所述图像背景图。3.根据权利要求1所述的方法，其特征在于，若所述背景图包括包含插图的背景图，所述确定待合成的文本的背景图，包括：获取多个插图样本和图片样本；按照预设的缩放比例，将小于数量阈值的插图样本贴图至所述图片样本中，得到所述包含插图的背景图。4.根据权利要求1所述的方法，其特征在于，所述确定待合成的文本，包括：获取目标语言语料，其中，所述目标语言语料至少包括中文语料和英文语料；从预设的字体库中选取与所述目标语言语料匹配的目标字体文件；将所述目标语言语料转换为与所述目标字体文件对应的目标字体语料；将所述目标字体语料中的文本确定为所述待合成的文本。5.根据权利要求2所述的方法，其特征在于，所述将所述文本和所述背景图进行合成，得到合成文本图像，包括：对所述图像背景图进行颜色分区，得到分区背景块；确定所述分区背景块中颜色复杂度多于设定颜色阈值的第一区域，将所述第一区域确定为第一非文字区域；确定所述分区背景块中区域面积小于预设面积阈值的第二区域，将所述第二...

【专利技术属性】
技术研发人员：杨明坤，
申请(专利权)人：北京智通东方软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人