一种文本区域检测方法、电子设备及计算机存储介质技术

技术编号:28476351 阅读:15 留言:0更新日期:2021-05-15 21:45
本申请实施例提供了一种文本区域检测方法、电子设备及计算机存储介质。根据本申请实施例提供的文本区域检测方案,对待识别图像进行的第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,进而融合所述第一特征图像和所述第二特征图像,生成目标特征图像,从而基于目标特征图像预测得到中心点的坐标值,以及,基于第二特征图像预测得到边界点相对于所述中心点的坐标值的偏移量,进而确定得到边界点的坐标值,并根据所述边界点的坐标值确定文本区域。所述边界点的坐标值确定文本区域。所述边界点的坐标值确定文本区域。

【技术实现步骤摘要】
一种文本区域检测方法、电子设备及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种文本区域检测方法、电子设备及计算机存储介质。

技术介绍

[0002]在针对文本区域(即用户手写输入所产生的文字区域)的检测中,经常会出现文本区域非常密集的实际应用场景。例如,在一张小学生的算术练习册上,可能一张图像上就有100个左右的文本区域。
[0003]常规方式中进行文本区域的检测,主要包括基于滑动窗口的文本检测方法,以及,基于计算连通域的方法。基于滑动窗口的文本检测方法需要耗费大量计算资源进行遍历搜索,以及对每个搜索框进行分类判定,计算量过大,耗时较长;而基于计算连通域的方法需要涉及大量的计算和调优。
[0004]在图像中的文本区域不多的情形下,常规方式还可以接受。但是随着文本框数量的增长,常规的检测方式的速度下降明显,无法满足实际应用场景的速度需求。基于此,需要一种更快速的文本区域检测方案。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种文本区域检测方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种文本区域检测方法,包括:获取待识别图像;对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;融合所述第一特征图像和所述第二特征图像,生成目标特征图像;根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;根据所述边界点的坐标值确定文本区域。
[0007]根据本申请实施例的第二方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的文本区域检测方法对应的操作。
[0008]根据本申请实施例的第三方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本区域检测方法。
[0009]根据本申请实施例提供的文本区域检测方案,对待识别图像进行的第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,进而融合
所述第一特征图像和所述第二特征图像,生成目标特征图像,从而基于目标特征图像预测得到中心点的坐标值,以及,基于第二特征图像预测得到边界点相对于所述中心点的坐标值的偏移量,进而确定得到边界点的坐标值,并根据所述边界点的坐标值确定文本区域。通过本申请实施例所提供的方案,使用更加合理的卷积核强化提取特征,从而提取到更为精准的特征表达,同时,基于边界点相对于中心点的偏移量来确定边界点的坐标值,实现检测加速,从而提升了对于文本区域的检测速度。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0011]图1为本申请实施例所提供的一种文本区域检测方法的流程示意图;图2为本申请实施例所提供的进行第一卷积和第二卷积的示意图;图3为本申请实施例所提供的一种内缩文本区域的示意图;图4为本申请实施例所提供的一种具体的实施方式的示意图;图5为本申请实施例所提供的一种电子设备的结构示意图;图6为本申请实施例所提供的一种文本区域检测装置的结构示意图。
具体实施方式
[0012]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0013]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0014]如图1所示,图1为本申请实施例所提供的一种文本区域检测方法的流程示意图,包括:S101,获取待识别图像。
[0015]待识别图像通常是包含有密集文本区域(即大量用户输入所产生的文本区域)的图像,例如,在线上教育中,经常需要对学生所产生的手写试卷进行区域检测,以便评分。
[0016]S103,对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像。
[0017]该部分也可以称为特征提取部分,即特征提取部分包含有两个分支,第一分支和第二分支。
[0018]在第一分支对所述待识别图像执行第一卷积操作,提取得到特征,并且将提取到的特征使用多次FPEM模块进行处理,从而得到第一特征图像,提取得到的第一特征图像可以采用是基于一个卷积处理模块所提取得到的特征图像,也可以是基于多个并行卷积处理模块所对应得到的多个子特征图像所融合得到。例如,可以采用包含多个块的基础网络模
型对所述待识别图像分别进行卷积,生成对应于所述多个块的多个相同或者不同大小的第一子特征图像,然后融合所述多个第一子特征图像,生成所述第一特征图像。
[0019]在第二分支中同样是对所述待识别图像执行相应的卷积操作,提取得到特征,并且将提取到的特征使用多次FPEM模块进行处理,从而得到第二特征图像。
[0020]与第一分支所不同的地方在于,在第一分支中进行的卷积是常规方式的卷积,而在第二分支中进行第二卷积时采用的是包含有偏移量矩阵的卷积核进行第二卷积,所述偏移量矩阵用于指示在第二卷积时的卷积位置(即卷积的主点)的偏移量。同时,该包含偏移量矩阵的卷积核的规格是预先指定的,以及偏移量矩阵中所包含的偏移量是基于第一特征图像中所预测得到的。如图2所示,图2为本申请实施例所提供的进行第一卷积和第二卷积的示意图。
[0021]具体而言,在第二分支中可以则使用两层双向循环神经网络(例如,双向长短期记忆人工神经网络(Long Short

Term Memory,LSTM))和一个Resnet18组成,其中双向LSTM以第一个分支的每个block的输出作为输入,采用多对多的形式(即多个时间步输入,对应多个输出),预测得到一个卷积核的大小。即将所述多个第一子特征图像作为预设的双向长短期记忆人工神经网络的并行输入,生成对应的多个输出值;根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本区域检测方法,包括:获取待识别图像;对所述待识别图像进行第一卷积,生成第一特征图像,以及,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,并采用包含偏移量矩阵的卷积核对所述待识别图像进行第二卷积,生成第二特征图像,其中,所述偏移量矩阵用于指示在第二卷积时的卷积位置的偏移量;融合所述第一特征图像和所述第二特征图像,生成目标特征图像;根据所述目标特征图像生成输出特征图像,所述输出特征图像包含区域中心点概率图,根据所述输出特征图像确定中心点的坐标值;根据所述第二特征图像确定边界点相对于所述中心点的坐标值的偏移量,根据所述偏移量和所述中心点的坐标值确定所述边界点的坐标值;根据所述边界点的坐标值确定文本区域。2.如权利要求1所述的方法,其中,对所述待识别图像进行第一卷积,生成第一特征图像,包括:采用包含多个块的基础网络模型对所述待识别图像分别进行卷积,生成对应于所述多个块的多个不同大小的第一子特征图像;对所述多个不同大小的第一子特征图像进行上采样,生成相同规格的上采样后的多个第一子特征图像;串联所述上采样后的多个第一子特征图像,生成所述第一特征图像。3.如权利要求2所述的方法,其中,根据所述第一特征图像预测得到包含偏移量矩阵的卷积核,包括:将所述多个第一子特征图像作为预设的双向长短期记忆人工神经网络的并行输入,生成对应的多个输出值;根据所述多个输出值确定所述偏移量矩阵,生成包含所述偏移量矩阵的卷积核。4.如权利要求3所述的方法,其中,采用包含偏移量矩阵的卷积核所述对所述待识别图像进行第二卷积,生成第二特征图像,包括:根据所述偏移量矩阵确定卷积时的偏移量;采用包含多个块的基础网络模型根据所述偏移量对所述待识别图像分别进行卷积,生成对应所述多个块的多个不同大小的第二子特征图像;对所述多个不同大小的第二子特征图像进行上采样,生成相同规格的上采样后的多个第二子特征图像;串联所述上采样后的多个第二子特征图像,生成所述第二特征图像。5.如权利要求1所述的方法,其中,根据所述目标特征图像生成输出特征图像,包括:对所述目标特征图像进行卷积和反卷积,生成包含与所述待识别图像相同规格的包含区域中心点概率图的输出特征图像。6.如权利要求5所述的方法,其中,根据所述...

【专利技术属性】
技术研发人员:周宏浩秦勇
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1