当前位置: 首页 > 专利查询>华侨大学专利>正文

文字识别模型的训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:30786287 阅读:20 留言:0更新日期:2021-11-16 07:48
本发明专利技术提供了一种文字识别模型的训练方法、装置、设备及可读存储介质,包括:调用合成数据集对初始学习模型进行训练,以获得中间模型;调用真实数据集对所述中间模型进行训练,以获得文字识别模型,其中,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息。解决了现有技术无法识别不规则分布或者弯曲的文字。者弯曲的文字。者弯曲的文字。

【技术实现步骤摘要】
文字识别模型的训练方法、装置、设备及可读存储介质


[0001]本专利技术涉及人工智能领域,特别涉及一种文字识别模型的训练方法、装置、设备及可读存储介质。

技术介绍

[0002]在现有技术中,已经有开放场景下的文字识别方法,但由于其识别的对象都较为规整,往往只需少数的例如旋转角度的矫正方法就可以成功对其识别。而开放场景下存在的大量的弯曲、不规则的文字排布,现有技术对于此类的识别效果是很差的,甚至不可用。同时,诸如仪表盘上面的文字也呈现出间距很大,要识别它们即意味着要对单个字符进行识别,而这也是现在的方法所不具备的。从另一方面来说,现如今的文字识别方法由于将文字识别这项任务划分为识别以及检测两个步骤,使得识别的效果也因此有所下降。而在深度学习的文字识别中这也意味着方法实现的繁琐性。
[0003]有鉴于此,提出本申请。

技术实现思路

[0004]本专利技术公开了一种文字识别模型的训练方法、装置、设备及可读存储介质,旨在解决现有技术无法识别不规则分布或者弯曲的文字。
[0005]本专利技术第一实施例提供了一种文字识别模型的训练方法,包括:
[0006]调用合成数据集对初始学习模型进行训练,以获得中间模型;
[0007]调用真实数据集对所述中间模型进行训练,以获得文字识别模型,其中,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息。
[0008]优选地,所述调用合成数据集对初始学习模型进行训练具体为:
[0009]将所述合成数据集中的图像信息输入到所述初始学习模型中,生成文字边框,并在所述文字边框内填入高斯图;
[0010]将填有高斯图的文字边框以one

hot的形式展开成多个通道,以识别不同的字符。
[0011]优选地,所述调用真实数据集对所述中间模型进行训练具体为:
[0012]将所述真实数据集的图像信息输入至所述中间模型;
[0013]接收所述中间模型的输出结果,调用分水岭算法对所述输出结果进行运算,生成字符标签;
[0014]判断所述字符标签的高分区域的面积以及分割出的字符数量是否满足预设条件;
[0015]若是,保留所述字符标签;
[0016]若否,删除所述字符标签。
[0017]优选地,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息具体为:
[0018]将所述图像采集装置采集到的图像输入至所述文字识别模型中,并生成多张类别
图像;
[0019]获取多张所述类别图像中每一区域位置值最大的第一图像;
[0020]对每一所述第一图像进行识别,生成文字对象的识别信息及其对应的位置信息。
[0021]本专利技术第二实施例提供了一种文字识别模型的训练方法装置,包括:
[0022]第一训练单元,用于调用合成数据集对初始学习模型进行训练,以获得中间模型;
[0023]第二训练单元,用于调用真实数据集对所述中间模型进行训练,以获得文字识别模型,其中,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息。
[0024]优选地,所述第一训练单元具体用于:
[0025]将所述合成数据集中的图像信息输入到所述初始学习模型中,生成文字边框,并在所述文字边框内填入高斯图;
[0026]将填有高斯图的文字边框以one

hot的形式展开成多个通道,以识别不同的字符。
[0027]优选地,所述第二训练单元具体用于:
[0028]将所述真实数据集的图像信息输入至所述中间模型;
[0029]接收所述中间模型的输出结果,调用分水岭算法对所述输出结果进行运算,生成字符标签;
[0030]判断所述字符标签的高分区域的面积以及分割出的字符数量是否满足预设条件;
[0031]若是,保留所述字符标签;
[0032]若否,删除所述字符标签。
[0033]优选地,所述第二训练单元还用于:
[0034]将所述图像采集装置采集到的图像输入至所述文字识别模型中,并生成多张类别图像;
[0035]获取多张所述类别图像中每一区域位置值最大的第一图像;
[0036]对每一所述第一图像进行识别,生成文字对象的识别信息及其对应的位置信息。
[0037]本专利技术第三实施例提供了一种文字识别模型的训练设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序实现如上任意一项所述的一种文字识别模型的训练方法。
[0038]本专利技术第四实施例提供了一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如任意一项所述的一种文字识别模型的训练方法。
[0039]基于本专利技术提供的一种文字识别模型的训练方法、装置、设备及可读存储介质,首先,通过调用开源的大型合成数据集对初始学习模型进行训练,以修改其权重,生成所述中间模型,其中,中间模型可以辨别出字符的位置信息以及如何区分不同的字符,接着,调用真实的数据集对所述中间模型进行训练,其采用缺少字符标注的数据来训练,同时在训练的过程采取最佳标签保留策略,以降低模型的震荡,同时提高模型的精度,解决了现有技术无法识别不规则分布或者弯曲的文字。
附图说明
[0040]图1是本专利技术第一实施例提供的一种文字识别模型的训练方法流程示意图;
[0041]图2是本专利技术提供的识别通道示意图;
[0042]图3是本专利技术提供的标签生成示意图;
[0043]图4是本专利技术第二实施例提供的一种文字识别模型的训练装置的模块示意图;
具体实施方式
[0044]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。
[0046]应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实`施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0047]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0048]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字识别模型的训练方法,其特征在于,包括:调用合成数据集对初始学习模型进行训练,以获得中间模型;调用真实数据集对所述中间模型进行训练,以获得文字识别模型,其中,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息。2.根据权利要求1所述的一种文字识别模型的训练方法,其特征在于,所述调用合成数据集对初始学习模型进行训练具体为:将所述合成数据集中的图像信息输入到所述初始学习模型中,生成文字边框,并在所述文字边框内填入高斯图;将填有高斯图的文字边框以one

hot的形式展开成多个通道,以识别不同的字符。3.根据权利要求1所述的一种文字识别模型的训练方法,其特征在于,所述调用真实数据集对所述中间模型进行训练具体为:将所述真实数据集的图像信息输入至所述中间模型;接收所述中间模型的输出结果,调用分水岭算法对所述输出结果进行运算,生成字符标签;判断所述字符标签的高分区域的面积以及分割出的字符数量是否满足预设条件;若是,保留所述字符标签;若否,删除所述字符标签。4.根据权利要求1所述的一种文字识别模型的训练方法,其特征在于,所述文字识别模型用于接收图像采集装置采集到的图像,并根据所述图像生成文字对象的识别信息及其对应的位置信息具体为:将所述图像采集装置采集到的图像输入至所述文字识别模型中,并生成多张类别图像;获取多张所述类别图像中每一区域位置值最大的第一图像;对每一所述第一图像进行识别,生成文字对象的识别信息及其对应的位置信息。5.一种文字识别模型的训练方法装置,其特征在于,包括:第一训练单元,用于调用合成数据集对初始学习模型进行训练,以获得中间模型;第二训练单元,用于调用真实数据集对所述...

【专利技术属性】
技术研发人员:杜吉祥郑剑锋张洪博翟传敏
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1