超分辨文本图像识别方法、装置、设备及存储介质制造方法及图纸

技术编号:32641160 阅读:18 留言:0更新日期:2022-03-12 18:17
本发明专利技术涉及图像识别技术领域,公开了一种超分辨文本图像识别方法、装置、设备及存储介质。本方法包括:获取待检测图像;将待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到待检测图像的像素数据;将像素数据输入超分辨率重建模型的亚像素卷积层进行像素提取,得到目标高分辨率图像;将目标高分辨率图像输入预设文本检测网络模型进行检测,得到目标高分辨率图像的文本区域;将目标高分辨率图像的文本区域输入预设文本识别模型进行识别,并根据识别结果确定文本区域中的文本内容。本发明专利技术通过gan网络提高了模型的深度学习能力,解决了文本检测网络准确率低与检测速度无法平衡的技术问题。测速度无法平衡的技术问题。测速度无法平衡的技术问题。

【技术实现步骤摘要】
超分辨文本图像识别方法、装置、设备及存储介质


[0001]本专利技术涉及图像识别
,尤其涉及一种超分辨文本图像识别方法、装置、设备及存储介质。

技术介绍

[0002]现有的快递单据关键信息提取技术的主要特点是:通过文本识别检测技术获得整张票据上的文字内容。通过模板匹配或者正则表达式来提取关键信息。
[0003]但是,在日常操作中由于环境、设备等因素的影响,人们获取到的图像往往是低质量的。随着智能化需求的不断扩大,低质量图像识别困难仍然是一个值得关注的问题。低质量图像识别的难点是图像的分辨率不够,图像的边缘和细节模糊,导致文字定位困难,识别率低。这类技术的主要缺陷和不足为:通过模板匹配的方式的方法只能从固定模板类型的快递单据上提取出关键信息。一旦单据图片的版式不符合系统中含有的模板,就无法正确提取出正确的关键信息。正则表达式匹配来提取关键信息的方法需要人为分析关键信息的格式,设计正则表达式。一旦出现超过正则表达式的关键信息,就无法正确提取出正确的关键信息。OCR技术识别出的结果仅仅是一串可编辑的字符串,对于用户而言其价值性较小,这种图像文字识别技术的实用性较低。

技术实现思路

[0004]本专利技术的主要目的在于通过gan网络提高了模型的深度学习能力,解决了文本检测网络准确率低与检测速度无法平衡的技术问题。
[0005]本专利技术第一方面提供了超分辨文本图像识别方法,包括:获取待检测图像;
[0006]将所述待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到所述待检测图像的像素数据;将所述像素数据输入所述超分辨率重建模型的亚像素卷积层进行像素提取,得到目标高分辨率图像;将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域;将所述目标高分辨率图像的文本区域输入预设文本识别模型进行识别,并根据识别结果确定所述文本区域中的文本内容。
[0007]可选地,在本专利技术第一方面的第一种实现方式中,在所述将所述待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到所述待检测图像的像素数据之前,还包括:从源数据库中获取低分辨率图像;接收数据增强请求,根据所述数据增强请求对所述低分辨率图像进行数据增强,得到增强图像;搭建初始超分辨率重建模型,通过所述增强图像对所述超分辨率重建模型进行训练,得到训练完成的超分辨率重建模型。
[0008]可选地,在本专利技术第一方面的第二种实现方式中,所述接收数据增强请求,根据所述数据增强请求对所述低分辨率图像进行数据增强,得到增强图像包括:接收数据增强请求,根据所述数据增强请求确定请求场景,并获取所述请求场景中每个标注标签的图像数量;根据所述图像数量从所述标注标签中提取请求标签,并获取所述请求标签所对应的请求图像;对所述请求图像中任两张图像进行图像融合,得到融合图像;根据所述任两张图像
的请求标签生成所述融合图像的融合标签;根据所述融合标签拼接所述请求图像及所述融合图像,得到增强图像。
[0009]可选地,在本专利技术第一方面的第三种实现方式中,所述搭建初始超分辨率重建模型,通过所述增强图像对所述超分辨率重建模型进行训练,得到训练完成的超分辨率重建模型包括:搭建超分辨率重建模型,将所述增强图像输入至所述超分辨率重建模型,得到备选高分辨率图像;对所述备选高分辨率图像和标准高分辨率图像进行图像格式转换,得到第一图像和第二图像;通过所述第一图像和所述第二图像之间的差异,构造损失函数;基于所述损失函数,对所述初始超分辨率重建模型进行迭代训练,得到训练完成的超分辨率重建模型。
[0010]可选地,在本专利技术第一方面的第四种实现方式中,在所述将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域之前,还包括:确定目标训练图像,并将所述目标训练图像输入至第一初始模型,其中,所述第一初始模型包括特征提取网络、特征融合网络和输出网络;将所述目标训练图像输入所述第一初始模型的特征提取网络进行特征提取,得到所述目标训练图像的初始特征图;将所述目标训练图像的初始特征图输入所述第一初始模型的特征融合网络进行特征融合,得到融合特征图;将所述融合特征图输入至所述输出网络,得到所述目标训练图像中文本区域的候选区域以及每个所述候选区域的概率值;基于预设检测损失函数确定所述候选区域以及每个所述候选区域的概率值的损失值;根据所述损失值对所述第一初始模型进行训练,直至所述第一初始模型中的参数收敛,得到文本检测网络模型。
[0011]可选地,在本专利技术第一方面的第五种实现方式中,所述将所述目标高分辨率图像的文本区域输入预设文本识别模型进行识别,并根据识别结果确定所述文本区域中的文本内容包括:将所述目标高分辨率图像的文本区域输入预设文本识别模型,通过文本识别模型对所述文本区域进行特征提取,得到与所述文本区域对应的特征图;通过所述文本识别模型中的分类通道对所述特征图进行语种分类处理,得到与所述文本图像对应的语种偏向分类结果;根据所述语种偏向分类结果对所述特征图进行文本识别,得到对应的文本识别结果,并根据识别结果确定所述文本区域中的文本内容。
[0012]可选地,在本专利技术第一方面的第六种实现方式中,所述将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域包括:将所述目标高分辨率图像输入所述文本检测网络模型,得到所述目标高分辨率图像中文本区域的多个候选文本区域,以及每个所述候选文本区域的概率值;根据所述文本候选区域的概率值以及多个所述文本候选区域之间的重叠程度,从多个所述文本候选区域中确定所述目标高分辨率图像中的文本区域。
[0013]本专利技术第二方面提供了一种超分辨文本图像识别装置,包括:第一获取模块,用于获取待检测图像;输入模块,用于将所述待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到所述待检测图像的像素数据;像素提取模块,用于将所述像素数据输入所述超分辨率重建模型的亚像素卷积层进行像素提取,得到目标高分辨率图像;检测模块,用于将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域;识别模块,用于将所述目标高分辨率图像的文本区域输入预设文本识别模型进行识别,并根据识别结果确定所述文本区域中的文本内容。
[0014]可选地,在本专利技术第二方面的第一种实现方式中,所述超分辨文本图像识别装置还包括:
[0015]第二获取模块,用于模块从源数据库中获取低分辨率图像;
[0016]数据增强模块,用于接收数据增强请求,根据所述数据增强请求对所述低分辨率图像进行数据增强,得到增强图像;
[0017]搭建模块,用于搭建初始超分辨率重建模型,通过所述增强图像对所述超分辨率重建模型进行训练,得到训练完成的超分辨率重建模型。
[0018]可选地,在本专利技术第二方面的第二种实现方式中,所述数据增强模块具体用于:接收数据增强请求,根据所述数据增强请求确定请求场景,并获取所述请求场景中每个标注标签的图像数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种超分辨文本图像识别方法,其特征在于,所述超分辨文本图像识别方法包括:获取待检测图像;将所述待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到所述待检测图像的像素数据;将所述像素数据输入所述超分辨率重建模型的亚像素卷积层进行像素提取,得到目标高分辨率图像;将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域;将所述目标高分辨率图像的文本区域输入预设文本识别模型进行识别,并根据识别结果确定所述文本区域中的文本内容。2.根据权利要求1所述的超分辨文本图像识别方法,其特征在于,在所述将所述待检测图像输入预设超分辨率重建模型的卷积神经网络层进行处理,得到所述待检测图像的像素数据之前,还包括:从源数据库中获取低分辨率图像;接收数据增强请求,根据所述数据增强请求对所述低分辨率图像进行数据增强,得到增强图像;搭建初始超分辨率重建模型,通过所述增强图像对所述超分辨率重建模型进行训练,得到训练完成的超分辨率重建模型。3.根据权利要求2所述的超分辨文本图像识别方法,其特征在于,所述接收数据增强请求,根据所述数据增强请求对所述低分辨率图像进行数据增强,得到增强图像包括:接收数据增强请求,根据所述数据增强请求确定请求场景,并获取所述请求场景中每个标注标签的图像数量;根据所述图像数量从所述标注标签中提取请求标签,并获取所述请求标签所对应的请求图像;对所述请求图像中任两张图像进行图像融合,得到融合图像;根据所述任两张图像的请求标签生成所述融合图像的融合标签;根据所述融合标签拼接所述请求图像及所述融合图像,得到增强图像。4.根据权利要求2所述的超分辨文本图像识别方法,其特征在于,所述搭建初始超分辨率重建模型,通过所述增强图像对所述超分辨率重建模型进行训练,得到训练完成的超分辨率重建模型包括:搭建超分辨率重建模型,将所述增强图像输入至所述超分辨率重建模型,得到备选高分辨率图像;对所述备选高分辨率图像和标准高分辨率图像进行图像格式转换,得到第一图像和第二图像;通过所述第一图像和所述第二图像之间的差异,构造损失函数;基于所述损失函数,对所述初始超分辨率重建模型进行迭代训练,得到训练完成的超分辨率重建模型。5.根据权利要求1所述的超分辨文本图像识别方法,其特征在于,在所述将所述目标高分辨率图像输入预设文本检测网络模型进行检测,得到所述目标高分辨率图像的文本区域
之前,还包括:确定目标训练图像,并将所述目标训练图像输入至第一初始模型,其中,所述第一初始模型包括特征提取网络、特征融合网络和输出网络;将所述目标训练图像输入所述第一初始模型的特征提取网络进行特征提取,得到所述目标训练图像的初始特征图;将所述目标训练图像的初始特征图输入所述第一初始模型的特征融合网络进行特征融合,得到融合特征...

【专利技术属性】
技术研发人员:衡鹤瑞杨周龙李斯
申请(专利权)人:上海东普信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1