图像处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:39157300 阅读:8 留言:0更新日期:2023-10-23 15:01
本发明专利技术提供一种图像处理方法、装置、电子设备和可读存储介质。图像处理方法包括以下步骤:获取输入图像;通过第一模型提取所述输入图像的图像特征,其中,所述第一模型包括N个阶段的Transformer网络,所述图像特征为第N个阶段的Transformer网络的输出结果,其中,N为大于1的整数;将所述图像特征输入解码器提取所述图像特征的语义信息获得特征图;根据对所述特征图的第一预测结果和第二预测结果生成所述输入图像的二值图,其中,所述第一预测结果为对所述特征图进行文本核心区域概率预测的结果,所述第二预测结果为对所述特征图进行边界阈值预测的预测结果。本发明专利技术实施例能够平衡检测到的信息量和检测精度,有助于提高对于图像中文本的检测的精度和效率。像中文本的检测的精度和效率。像中文本的检测的精度和效率。

【技术实现步骤摘要】
图像处理方法、装置、电子设备和可读存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种图像处理方法、装置、电子设备和可读存储介质。

技术介绍

[0002]相关技术中,可以对图像中的文本进行检测识别,在文本检测任务中,通常基于图像特征金字塔网络检测图像中的文本,进一步对检测到的文本进行识别,这种方式的检测精度相对较高,但对检测速度造成了较大的影响,同时,单层特征的感受野覆盖面积有限,由于没有对文本尺寸全覆盖会导致检测精度的下降,由此可见,现有技术对图像中文本检测的效果较差。

技术实现思路

[0003]本专利技术实施例提供一种图像处理方法、装置、电子设备和可读存储介质,以解决现有技术对图像中文本检测的效果较差的问题。
[0004]为解决上述问题,本专利技术是这样实现的:
[0005]第一方面,本专利技术实施例提供了一种图像处理方法,包括以下步骤:
[0006]获取输入图像;
[0007]通过第一模型提取所述输入图像的图像特征,其中,所述第一模型包括N个阶段的Transformer网络,所述图像特征为第N个阶段的Transformer网络的输出结果,其中,N为大于1的整数;
[0008]将所述图像特征输入解码器提取所述图像特征的语义信息获得特征图;
[0009]根据对所述特征图的第一预测结果和第二预测结果生成所述输入图像的二值图,其中,所述第一预测结果为对所述特征图进行文本核心区域概率预测的结果,所述第二预测结果为对所述特征图进行边界阈值预测的预测结果。
[0010]在其中一些实施例中,所述Transformer网络包括特征嵌入层和Transformer解构器层,其中,所述Transformer网络的输入作为所述特征嵌入层的输入,所述特征嵌入层的输出作为所述Transformer解构器层的输入,所述Transformer解构器层的输出作为所述Transformer网络的输出。
[0011]在其中一些实施例中,所述N个阶段的Transformer网络的输出特征的维数按照先后顺序依次增加。
[0012]在其中一些实施例中,所述特征嵌入层包括特征分割模块以及激活和批归一化层,所述特征嵌入层的输入作为所述特征分割模块的输入,所述特征分割模块的输出作为激活和批归一化层的输入,激活和批归一化层的输出作为所述特征嵌入层的输出;
[0013]所述Transformer解构器层包括空间缩减注意力层和多个依次设置的激活和批归一化层,所述Transformer解构器层的输入作为所述空间缩减注意力层的输入,所述Transformer解构器层的输入和所述空间缩减注意力层的输出的叠加作为多个依次设置的
激活和批归一化层的输入,所述多个依次设置的激活和批归一化层的输入和所述多个依次设置的激活和批归一化层的输出的叠加作为所述Transformer解构器层的输出。
[0014]在其中一些实施例中,所述N等于4,
[0015]在其中一些实施例中,所述解码器包括特征细化模块和残差模块,其中,所述解码器的输入作为所述特征细化模块的输入,所述特征细化模块的输出作为所述残差模块的输入,所述残差模块的输出作为所述解码器的输出。
[0016]在其中一些实施例中,所述特征细化模块包括依次设置的1*1卷积模块和3*3卷积模块,其中,特征细化模块的输入作为所述1*1卷积模块的输入,所述1*1卷积模块的输出作为所述特征细化模块的输出;
[0017]所述残差模块包括依次设置的第一1*1卷积模块,3*3空洞卷积模块和第二1*1卷积模块,其中,残差模块的输入作为所述第一1*1卷积模块的输入,所述第一1*1卷积模块的输出作为所述3*3空洞卷积模块的输入,所述3*3空洞卷积模块的输出作为所述第二1*1卷积模块的输入,所述残差模块的输入和所述第二1*1卷积模块的输出叠加作为所述残差模块的输出。
[0018]第二方面,本专利技术实施例还提供一种图像处理装置,包括:
[0019]输入模块,用于获取输入图像;
[0020]图像特征提取模块,用于通过第一模型提取所述输入图像的图像特征,其中,所述第一模型包括N个阶段的Transformer网络,所述图像特征为第N个阶段的Transformer网络的输出结果,其中,N为大于1的整数;
[0021]特征图提取模块,用于将所述图像特征输入解码器提取所述图像特征的语义信息获得特征图;
[0022]二值图生成模块,用于根据对所述特征图的第一预测结果和第二预测结果生成所述输入图像的二值图,其中,所述第一预测结果为对所述特征图进行文本核心区域概率预测的结果,所述第二预测结果为对所述特征图进行边界阈值预测的预测结果。
[0023]第三方面,本专利技术实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
[0024]第四方面,本专利技术实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
[0025]在本专利技术实施例,通过设置多个阶段的Transformer网络,能够平衡检测到的信息量和检测精度,有助于提高对于图像中文本的检测的精度和效率。
附图说明
[0026]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本专利技术实施例提供的图像处理方法的流程示意图;
[0028]图2是本专利技术实施例提供的第一模型的架构示意图;
[0029]图3是本专利技术实施例提供的解码器的架构示意图;
[0030]图4是本专利技术实施例图像处理的流程示意图;
[0031]图5是本专利技术实施例提供的图像处理方法的又一流程示意图;
[0032]图6是本专利技术实施例提供的图像处理方法的又一流程示意图;
[0033]图7是本专利技术实施例提供的图像处理装置的结构示意图;
[0034]图8是本专利技术实施提供的电子设备的结构示意图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]本专利技术实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,包括以下步骤:获取输入图像;通过第一模型提取所述输入图像的图像特征,其中,所述第一模型包括N个阶段的Transformer网络,所述图像特征为第N个阶段的Transformer网络的输出结果,其中,N为大于1的整数;将所述图像特征输入解码器提取所述图像特征的语义信息获得特征图;根据对所述特征图的第一预测结果和第二预测结果生成所述输入图像的二值图,其中,所述第一预测结果为对所述特征图进行文本核心区域概率预测的结果,所述第二预测结果为对所述特征图进行边界阈值预测的预测结果。2.如权利要求1所述的方法,其特征在于,所述Transformer网络包括特征嵌入层和Transformer解构器层,其中,所述Transformer网络的输入作为所述特征嵌入层的输入,所述特征嵌入层的输出作为所述Transformer解构器层的输入,所述Transformer解构器层的输出作为所述Transformer网络的输出。3.如权利要求2所述的方法,其特征在于,所述N个阶段的Transformer网络的输出特征的维数按照先后顺序依次增加。4.如权利要求2所述的方法,其特征在于,所述特征嵌入层包括特征分割模块以及激活和批归一化层,所述特征嵌入层的输入作为所述特征分割模块的输入,所述特征分割模块的输出作为激活和批归一化层的输入,激活和批归一化层的输出作为所述特征嵌入层的输出;所述Transformer解构器层包括空间缩减注意力层和多个依次设置的激活和批归一化层,所述Transformer解构器层的输入作为所述空间缩减注意力层的输入,所述Transformer解构器层的输入和所述空间缩减注意力层的输出的叠加作为多个依次设置的激活和批归一化层的输入,所述多个依次设置的激活和批归一化层的输入和所述多个依次设置的激活和批归一化层的输出的叠加作为所述Transformer解构器层的输出。5.如权利要求1至4中任一项所述的方法,其特征在于,所述N等于4。6....

【专利技术属性】
技术研发人员:毕岳峰黄瑞文
申请(专利权)人:北京京东方技术开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1