本公开涉及一种模型训练方法、装置、存储介质及电子设备。模型训练方法,包括:确定待合成的文本的背景图,所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种;确定待合成的文本;将所述文本和所述背景图进行合成,得到合成文本图像;根据所述合成文本图像,得到训练数据集,根据所述训练数据集,对模型进行训练,以得到文本检测模型。通过本公开训练得到的文本检测模型,能够很好的识别文档类的文本数据,识别准确度高。识别准确度高。识别准确度高。
【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备
[0001]本公开涉及计算机
,具体地,涉及一种模型训练方法、装置、存储介质及电子设备。
技术介绍
[0002]随着人工智能技术的发展,光学字符识别(Optical Character Recognition,OCR)技术应运而生,光学字符识别OCR是指对包含文本资料的图像资料文件(可简称为文本图像)进行分析识别处理,获取文字及版面信息的技术。
[0003]在实际应用中,通常是训练一个OCR文本检测模型来实现对文本图像的文本检测,以获取文本图像的文字及版面信息。OCR文本检测模型的训练通常需要大量的文本图像作为训练语料,而往往现有的真实文本图像的数量不能满足训练要求,例如在需要大量文本检测数据的情况下,如果采用人工标注的方式,会耗费大量的人力物力,且效率较低。
[0004]因此,为快速且容易的获取到足够数量的文本图像,如何合成文本图像是有待解决的问题。
技术实现思路
[0005]本公开的目的是提供一种模型训练方法、装置、存储介质及电子设备。
[0006]为了实现上述目的,第一方面,本公开提供一种模型训练方法,包括:
[0007]确定待合成的文本的背景图,所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种;
[0008]确定待合成的文本;
[0009]将所述文本和所述背景图进行合成,得到合成文本图像;
[0010]根据所述合成文本图像,得到训练数据集,根据所述训练数据集,对模型进行训练,以得到文本检测模型。
[0011]可选地,若所述背景图包括图像背景图,所述确定待合成的文本的背景图,包括:
[0012]将获取的卡通图像放大至文本所需的尺寸,得到所述图像背景图。
[0013]可选地,若所述背景图包括包含插图的背景图,所述确定待合成的文本的背景图,包括:
[0014]获取多个插图样本和图片样本;
[0015]按照预设的缩放比例,将小于数量阈值的插图样本贴图至所述图片样本中,得到所述包含插图的背景图。
[0016]可选地,所述确定待合成的文本,包括:
[0017]获取目标语言语料,其中,所述目标语言语料至少包括中文语料和英文语料;
[0018]从预设的字体库中选取与所述目标语言语料匹配的目标字体文件;
[0019]将所述目标语言语料转换为与所述目标字体文件对应的目标字体语料;
[0020]将所述目标字体语料中的文本确定为所述待合成的文本。
[0021]可选地,所述将所述文本和所述背景图进行合成,得到合成文本图像,包括:
[0022]对所述图像背景图进行颜色分区,得到分区背景块;
[0023]确定所述分区背景块中颜色复杂度多于设定颜色阈值的第一区域,将所述第一区域确定为第一非文字区域;
[0024]确定所述分区背景块中区域面积小于预设面积阈值的第二区域,将所述第二区域确定为第二非文字区域;
[0025]将所述文本添加至除所述第一非文字区域和所述第二非文字区域的区域,得到所述合成文本图像。
[0026]可选地,所述将所述文本和所述背景图进行合成,得到合成文本图像,包括:
[0027]获取所述包含插图的背景图中插图的位置区域;
[0028]在除插图的位置区域之外的区域,添加所述文本,得到所述合成文本图像。
[0029]可选地,所述根据所述合成文本图像,得到训练数据集,包括:
[0030]对所述合成文本图像进行仿射变换和透视变换,得到变换文本图像;
[0031]对所述变换文本图像进行环境图的合成,以得到符合光照梯度的环境文本图像;
[0032]将所述环境文本图像,作为训练样本,得到所述训练样本集。
[0033]第二方面,本公开提供一种模型训练装置,包括:
[0034]确定模块,用于确定待合成的文本的背景图,所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种,确定待合成的文本;
[0035]合成模块,用于将所述文本和所述背景图进行合成,得到合成文本图像;
[0036]训练模块,用于根据所述合成文本图像,得到训练数据集,根据所述训练数据集,对模型进行训练,以得到文本检测模型。
[0037]可选地,若所述背景图包括图像背景图,所述确定模块采用如下方式确定待合成的文本的背景图:
[0038]将获取的卡通图像放大至文本所需的尺寸,得到所述图像背景图。
[0039]可选地,若所述背景图包括包含插图的背景图,所述确定模块采用如下方式确定待合成的文本的背景图:
[0040]获取多个插图样本和图片样本;
[0041]按照预设的缩放比例,将小于数量阈值的插图样本贴图至所述图片样本中,得到所述包含插图的背景图。
[0042]可选地,所述确定模块采用如下方式确定待合成的文本:
[0043]获取目标语言语料,其中,所述目标语言语料至少包括中文语料和英文语料;
[0044]从预设的字体库中选取与所述目标语言语料匹配的目标字体文件;
[0045]将所述目标语言语料转换为与所述目标字体文件对应的目标字体语料;
[0046]将所述目标字体语料中的文本确定为所述待合成的文本。
[0047]可选地,所述合成模块采用如下方式将所述文本和所述背景图进行合成,得到合成文本图像:
[0048]对所述图像背景图进行颜色分区,得到分区背景块;
[0049]确定所述分区背景块中颜色复杂度多于设定颜色阈值的第一区域,将所述第一区域确定为第一非文字区域;
[0050]确定所述分区背景块中区域面积小于预设面积阈值的第二区域,将所述第二区域确定为第二非文字区域;
[0051]将所述文本添加至除所述第一非文字区域和所述第二非文字区域的区域,得到所述合成文本图像。
[0052]可选地,所述合成模块采用如下方式将所述文本和所述背景图进行合成,得到合成文本图像:
[0053]获取所述包含插图的背景图中插图的位置区域;
[0054]在除插图的位置区域之外的区域,添加所述文本,得到所述合成文本图像。
[0055]可选地,所述训练模块采用如下方式根据所述合成文本图像,得到训练数据集:
[0056]对所述合成文本图像进行仿射变换和透视变换,得到变换文本图像;
[0057]对所述变换文本图像进行环境图的合成,以得到符合光照梯度的环境文本图像;
[0058]将所述环境文本图像,作为训练样本,得到所述训练样本集。
[0059]第三方面,本公开提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0060]第四方面,本公开提供一种电子设备,包括:
[0061]存储器,其上存储有计算机程序;
[0062]处理器,用于执行所述存储本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:确定待合成的文本的背景图,所述背景图包括纯色背景图、图像背景图和包含插图的背景图中的至少一种;确定待合成的文本;将所述文本和所述背景图进行合成,得到合成文本图像;根据所述合成文本图像,得到训练数据集,根据所述训练数据集,对模型进行训练,以得到文本检测模型。2.根据权利要求1所述的方法,其特征在于,若所述背景图包括图像背景图,所述确定待合成的文本的背景图,包括:将获取的卡通图像放大至文本所需的尺寸,得到所述图像背景图。3.根据权利要求1所述的方法,其特征在于,若所述背景图包括包含插图的背景图,所述确定待合成的文本的背景图,包括:获取多个插图样本和图片样本;按照预设的缩放比例,将小于数量阈值的插图样本贴图至所述图片样本中,得到所述包含插图的背景图。4.根据权利要求1所述的方法,其特征在于,所述确定待合成的文本,包括:获取目标语言语料,其中,所述目标语言语料至少包括中文语料和英文语料;从预设的字体库中选取与所述目标语言语料匹配的目标字体文件;将所述目标语言语料转换为与所述目标字体文件对应的目标字体语料;将所述目标字体语料中的文本确定为所述待合成的文本。5.根据权利要求2所述的方法,其特征在于,所述将所述文本和所述背景图进行合成,得到合成文本图像,包括:对所述图像背景图进行颜色分区,得到分区背景块;确定所述分区背景块中颜色复杂度多于设定颜色阈值的第一区域,将所述第一区域确定为第一非文字区域;确定所述分区背景块中区域面积小于预设面积阈值的第二区域,将所述第二...
【专利技术属性】
技术研发人员:杨明坤,
申请(专利权)人:北京智通东方软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。