OCR模型产出方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:37501464 阅读:32 留言:0更新日期:2023-05-07 09:37
本申请提供的OCR模型产出方法,获取全局配置信息;根据全局配置信息,确定目标数据;根据目标数据,生成待标注的OCR识别数据;获取难例数据;将待标注的OCR识别数据与难例数据合并,得到训练数据;构建OCR模型并依据训练数据对OCR模型进行训练,得到目标模型;确定目标模型的目标条件;若满足目标条件,则产出目标模型;若不满足,则基于目标模型,确定训练数据中的目标样本;更新难例数据库中的样本数据,并重新依据全局配置信息确定新的目标数据,依据新的目标数据以及更新的样本数据确定新的目标模型,直至新的目标模型满足其对应的目标条件。使得产出的OCR模型达到较好的识别效果,节省大量前期训练的人力成本和时间成本。省大量前期训练的人力成本和时间成本。省大量前期训练的人力成本和时间成本。

【技术实现步骤摘要】
OCR模型产出方法、装置、存储介质及计算机设备


[0001]本申请涉及文字识别
,尤其涉及一种OCR模型产出方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着信息化和数字化的到来,现实场景有大量的文档、图片需要进行文字识别,将内部的内容智能识别和提取出来使用,因此OCR(Optical Character Recognition,光学字符识别)技术已经被广泛使用,在光学字符识别领域,深度学习算法的不断迭代更新,学习能力不断提高,由于深度学习是靠数据驱动的,所以结合数据生成算法生成大量的数据,可以获得很好的识别效果。
[0003]OCR的核心由检测算法和识别算法构成,对于识别算法而言,由于文字类别多、背景复杂、文字模糊、文字褶皱、拍照曝光等各种复杂场景的存在,如果通用OCR模型要达到较好的识别效果,需要大量的数据采集与标注,会耗费大量的人力成本和时间成本。

技术实现思路

[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中通用OCR模型要达到较好的识别效果,需要大量的数据采集与标注,会耗费大量的人力成本和时间成本的技术缺陷。
[0005]第一方面,本申请提供了一种OCR模型产出方法,所述方法包括:
[0006]当接收到客户端发起的模型产出请求时,获取所述模型产出请求中包含的全局配置信息;
[0007]根据所述全局配置信息,确定目标数据;其中,所述目标数据包括语料数据、字体数据、背景图像数据以及强化方案;
[0008]根据所述目标数据,生成待标注的OCR识别数据;
[0009]获取难例数据;其中,所述难例数据为已设置的难例数据库中的所有样本数据;
[0010]将所述待标注的OCR识别数据与所述难例数据合并,得到训练数据;
[0011]构建OCR模型,并依据所述训练数据,对所述OCR模型进行训练,得到目标模型;
[0012]对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件;
[0013]若所述目标模型满足所述目标条件,则产出所述目标模型;
[0014]若所述目标模型不满足所述目标条件,则基于所述目标模型,确定所述训练数据中的目标样本;
[0015]根据所述目标样本,更新所述难例数据库中的样本数据,并重新依据所述全局配置信息确定新的目标数据,依据所述新的目标数据以及更新的样本数据确定新的目标模型,直至所述新的目标模型满足其对应的目标条件。
[0016]在其中一个实施例中,所述根据所述全局配置信息,确定目标数据,包括:
[0017]根据所述全局配置信息,在已设置的语料采集系统中确定目标语料库集合;其中,
所述目标语料库集合为可选取的语料库的集合;
[0018]在所述目标语料库集合中,依据第一预设策略选取至少一个语料库,得到与选取的语料库对应的语料数据;
[0019]根据所述全局配置信息,在已设置的字体采集系统中确定目标字体库集合;其中,所述目标字体库集合为可选取的字体库的集合;
[0020]在所述目标字体库集合中,依据第二预设策略选取至少一个字体库,得到与选取的字体库对应的字体数据;
[0021]根据所述全局配置信息,在已设置的背景图像采集系统中确定目标背景图库集合;其中,所述目标背景图库集合为可选取的背景图库的集合;
[0022]在所述目标背景图库集合中,依据第三预设策略选取至少一个背景图库,得到与选取的背景图库对应的背景图像数据;
[0023]在已设置的增强算法库中,依据第四预设策略选取至少一种增强算法,得到与选取的增强算法对应的强化方案;
[0024]根据所述语料数据、所述字体数据、所述背景图像数据和所述强化方案,确定目标数据。
[0025]在其中一个实施例中,所述对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件,包括:
[0026]获取所述全局配置信息中的迭代终止条件;
[0027]若所述迭代终止条件为迭代次数,则获取本次OCR模型产出中对应的迭代次数;
[0028]将所述迭代次数超过第一预设阈值确定为目标条件。
[0029]在其中一个实施例中,所述对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件,还包括:
[0030]若所述迭代终止条件为识别效果,则基于已设置的迭代评估系统对所述目标模型进行效果评估,得到与所述目标模型对应的模型评估分值;
[0031]将所述模型评估分值超过第二预设阈值确定为目标条件。
[0032]在其中一个实施例中,所述基于所述目标模型,确定所述训练数据中的目标样本,包括:
[0033]获取所述训练数据中各个样本对应的期望输出;
[0034]将所述训练数据中的各个样本输入所述目标模型中,得到各个样本对应的实际输出;
[0035]若所述训练数据中的样本对应的实际输出和期望输出不一致,则将该样本确定为目标样本。
[0036]在其中一个实施例中,所述根据所述目标样本,更新所述难例数据库中的样本数据,包括:
[0037]用所述目标样本覆盖所述难例数据库中已存在的所有样本数据。
[0038]第二方面,本申请提供了一种OCR模型产出装置,所述装置包括:
[0039]第一获取模块,用于当接收到客户端发起的模型产出请求时,获取所述模型产出请求中包含的全局配置信息;
[0040]第一确定模块,用于根据所述全局配置信息,确定目标数据;其中,所述目标数据
包括语料数据、字体数据、背景图像数据以及强化方案;
[0041]数据生成模块,用于根据所述目标数据,生成待标注的OCR识别数据;
[0042]第二获取模块,用于获取难例数据;其中,所述难例数据为已设置的难例数据库中的所有样本数据;
[0043]数据合并模块,用于将所述待标注的OCR识别数据与所述难例数据合并,得到训练数据;
[0044]模型训练模块,用于构建OCR模型,并依据所述训练数据,对所述OCR模型进行训练,得到目标模型;
[0045]第二确定模块,用于对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件;
[0046]模型产出模块,用于若所述目标模型满足所述目标条件,则产出所述目标模型;
[0047]第三确定模块,用于若所述目标模型不满足所述目标条件,则基于所述目标模型,确定所述训练数据中的目标样本;
[0048]数据更新模块,用于根据所述目标样本,更新所述难例数据库中的样本数据,并重新依据所述全局配置信息确定新的目标数据,依据所述新的目标数据以及更新的样本数据确定新的目标模型,直至所述新的目标模型满足其对应的目标条件。
[0049]在其中一个实施例中,所述第一确定模块,包括:
[0050]第一确定子模块,用于根据所述全局配置信息,在已设置的语料采集系统中确定目标语料库集合;其中,所述目标语料库集合为可选取的语料库的集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种OCR模型产出方法,其特征在于,所述方法包括:当接收到客户端发起的模型产出请求时,获取所述模型产出请求中包含的全局配置信息;根据所述全局配置信息,确定目标数据;其中,所述目标数据包括语料数据、字体数据、背景图像数据以及强化方案;根据所述目标数据,生成待标注的OCR识别数据;获取难例数据;其中,所述难例数据为已设置的难例数据库中的所有样本数据;将所述待标注的OCR识别数据与所述难例数据合并,得到训练数据;构建OCR模型,并依据所述训练数据,对所述OCR模型进行训练,得到目标模型;对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件;若所述目标模型满足所述目标条件,则产出所述目标模型;若所述目标模型不满足所述目标条件,则基于所述目标模型,确定所述训练数据中的目标样本;根据所述目标样本,更新所述难例数据库中的样本数据,并重新依据所述全局配置信息确定新的目标数据,依据所述新的目标数据以及更新的样本数据确定新的目标模型,直至所述新的目标模型满足其对应的目标条件。2.根据权利要求1所述的OCR模型产出方法,其特征在于,所述根据所述全局配置信息,确定目标数据,包括:根据所述全局配置信息,在已设置的语料采集系统中确定目标语料库集合;其中,所述目标语料库集合为可选取的语料库的集合;在所述目标语料库集合中,依据第一预设策略选取至少一个语料库,得到与选取的语料库对应的语料数据;根据所述全局配置信息,在已设置的字体采集系统中确定目标字体库集合;其中,所述目标字体库集合为可选取的字体库的集合;在所述目标字体库集合中,依据第二预设策略选取至少一个字体库,得到与选取的字体库对应的字体数据;根据所述全局配置信息,在已设置的背景图像采集系统中确定目标背景图库集合;其中,所述目标背景图库集合为可选取的背景图库的集合;在所述目标背景图库集合中,依据第三预设策略选取至少一个背景图库,得到与选取的背景图库对应的背景图像数据;在已设置的增强算法库中,依据第四预设策略选取至少一种增强算法,得到与选取的增强算法对应的强化方案;根据所述语料数据、所述字体数据、所述背景图像数据和所述强化方案,确定目标数据。3.根据权利要求1所述的OCR模型产出方法,其特征在于,所述对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件,包括:获取所述全局配置信息中的迭代终止条件;若所述迭代终止条件为迭代次数,则获取本次OCR模型产出中对应的迭代次数;将所述迭代次数超过第一预设阈值确定为目标条件。
4.根据权利要求3所述的OCR模型产出方法,其特征在于,所述对所述目标模型进行迭代评估,确定所述目标模型对应的目标条件,还包括:若所述迭代终止条件为识别效果,则基于已设置的迭代评估系统对所述目标模型进行效果评估,得到与所述目标模型对应的模型评估分值;将所述模型评估分值超过第二预设阈值确定为目标条件。5.根据权利要求1所述的OCR模型产出方法,其特征在于,所述基于所述目标模型,确定所述训练数据中的目标样本,包括:获取所述训练数据中各个样本对应的期望输出;将所述训练数据中的各个样本输入所述目标模型中,得到各个样本对应的实际输出;若所述训练数据中的样本对应的实际输出和期望输出不一致,则将该样本确定为目标样本。6.根据权...

【专利技术属性】
技术研发人员:卞晓瑜肖鸣林黄俊
申请(专利权)人:壹沓科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1