文本识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:25990461 阅读:64 留言:0更新日期:2020-10-20 18:58
本申请涉及一种文本识别方法、装置、计算机设备和存储介质。所述方法包括:获取原始文本图像;对所述原始文本图像进行图像预处理,得到处理后文本图像;利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征;利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列;对所述特征序列进行解码,得到目标文本。采用本方法能够提高文本识别的准确率。

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和存储介质
本申请涉及人工智能
,特别是涉及一种文本识别方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术的发展,出现了文本识别技术,文本识别指的是将一张文本图像中的图像特征提取出来,并识别成文字的过程,广泛应用于无人驾驶、机器人导航、盲人辅助等技术中。目前常用的文本识别技术,对不规则的文本图像中的文本识别的错误率较高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高文本识别正确率的文本识别方法、装置、计算机设备和存储介质。一种文本识别方法,所述方法包括:获取原始文本图像;对所述原始文本图像进行图像预处理,得到处理后文本图像;利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征;利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列;对所述特征序列进行解码,得到目标文本。在其中一个实施例中,还包括:所述残差卷积网络包括n个残差卷积模块;所述上下文感知网络包括n个上下文感知模块;其中,n为大于1的正整数,且每个残差卷积模块与每个上下文感知模块交替连接;所述利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征包括:当i为1时,通过所述残差卷积网络中第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1、且小于或等于n的正整数;<br>当i不为1时,通过所述残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征;所述利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列包括:通过所述上下文感知网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算,得到第i语义层次的特征序列;所述对所述特征序列进行解码之前,所述方法还包括:当所述第i语义层次的特征序列中的i小于n时,则将i递增之后进行下一个阶段的特征提取以及特征运算,直至获得第n语义层次的特征序列。在其中一个实施例中,还包括:所述第i个上下文感知模块包括至少两个特征提取层;每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成;在不同的所述特征提取层中,扩张卷积层的扩张因子不同、且呈规律变化;所述扩张因子包括宽维度扩张因子和高维度扩张因子;所述宽维度扩张因子大于所述高维度扩张因子。在其中一个实施例中,还包括:所述呈规律变化是所述扩张因子随着所述扩张卷积层的层级增加而增大。在其中一个实施例中,还包括:所述对所述原始文本图像进行图像预处理,得到处理后文本图像包括:定位所述原始文本图像的文本区域;在所述文本区域中选取控制点,并获取控制点的第一位置坐标;设定与所述控制点相对应的基准点的第二位置坐标;根据所述第一位置坐标和所述第二位置坐标生成采样网格,所述采样网格表示所述第一位置坐标和所述第二位置坐标之间的映射关系;根据所述采样网格将所述原始文本图像重采样至设定的模板中,得到所述处理后文本图像。在其中一个实施例中,还包括:所述目标文本由多个字符所构成;所述对所述特征序列进行解码,得到目标文本包括:利用注意力机制获得所述字符的注意力向量;将所述注意力向量和所述特征序列输入递归神经网络进行运算,得到目标文本。一种文本识别装置,所述装置包括:获取模块,用于获取原始文本图像;预处理模块,用于对所述原始文本图像进行图像预处理,得到处理后文本图像;提取模块,用于利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征;编码模块,用于利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列;解码模块,用于对所述特征序列进行解码,得到目标文本。在一个实施例中,所述装置还包括:所述残差卷积网络包括n个残差卷积模块;所述上下文感知网络包括n个上下文感知模块;其中,n为大于1的正整数,且每个残差卷积模块与每个上下文感知模块交替连接;所述提取模块还用于:当i为1时,通过所述残差卷积网络中第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1、且小于或等于n的正整数;当i不为1时,通过所述残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征;所述编码模块还用于:通过所述残差卷积网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算,得到第i语义层次的特征序列;所述装置还包括:递增模块,当所述第i语义层次的特征序列中的i小于n时,则用于将i递增之后进行下一个阶段的特征提取以及特征运算,直至获得第n语义层次的特征序列。在一个实施例中,所述装置还包括:所述第i个上下文感知模块包括至少两个特征提取层;每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成;在不同的所述特征提取层中,扩张卷积层的扩张因子不同、且呈规律变化;所述扩张因子包括宽维度扩张因子和高维度扩张因子;所述宽维度扩张因子大于所述高维度扩张因子。在一个实施例中,所述装置还包括:所述呈规律变化是所述扩张因子随着所述扩张卷积层的层级增加而增大。在一个实施例中,所述预处理模块还用于:定位所述原始文本图像的文本区域;在所述文本区域中选取控制点,并获取控制点的第一位置坐标;设定与所述控制点相对应的基准点的第二位置坐标;根据所述第一位置坐标和所述第二位置坐标生成采样网格,所述采样网格表示所述第一位置坐标和所述第二位置坐标之间的映射关系;根据所述采样网格将所述原始文本图像重采样至设定的模板中,得到所述处理后文本图像。在一个实施例中,所述装置还包括:所述目标文本由多个字符所构成;所述解码模块还用于:利用注意力机制获得所述字符的注意力向量;将所述注意力向量和所述特征序列输入递归神经网络进行运算,得到目标文本。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。上述实施例中,计算机设备首先对获取的原始文本图像进行预处理,然后利用特征编码网络中的残差卷积网络提取预处理后的文本图像的特征。再利用上下文感知网络提取上下文关联的图像特征,并对图像特征进行编码,得到特征序列。最后对特征序列进行解码,得到本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:/n获取原始文本图像;/n对所述原始文本图像进行图像预处理,得到处理后文本图像;/n利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征;/n利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列;/n对所述特征序列进行解码,得到目标文本。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:
获取原始文本图像;
对所述原始文本图像进行图像预处理,得到处理后文本图像;
利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征;
利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列;
对所述特征序列进行解码,得到目标文本。


2.根据权利要求1所述的方法,其特征在于,所述残差卷积网络包括n个残差卷积模块;所述上下文感知网络包括n个上下文感知模块;其中,n为大于1的正整数,且每个残差卷积模块与每个上下文感知模块交替连接;
所述利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取,得到图像特征包括:
当i为1时,通过所述残差卷积网络中第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1、且小于或等于n的正整数;
当i不为1时,通过所述残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征;
所述利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码,得到特征序列包括:
通过所述上下文感知网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算,得到第i语义层次的特征序列;
所述对所述特征序列进行解码之前,所述方法还包括:
当所述第i语义层次的特征序列中的i小于n时,则将i递增之后进行下一个阶段的特征提取以及特征运算,直至获得第n语义层次的特征序列。


3.根据权利要求2所述的方法,其特征在于,所述第i个上下文感知模块包括至少两个特征提取层;每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成;
在不同的所述特征提取层中,扩张卷积层的扩张因子不同、且呈规律变化;
所述扩张因子包括宽维度扩张因子和高维度扩张因子;所述宽维度扩张因子大于所述高维度扩张因子。


4.根据权利要求3所述的方法,其特征在于,所述呈规律变化是所述扩张因子随着所述扩张卷积层的层级增加而增大。


5.根据权利要求1所述的方法,其特征在于,所述对所述原始文本图像进行图像预处理,得到处理后文本图像包括:
定位所述原始文本图像的文本区域;
在所述文本区域中选取控制点,并获取控制点的第一位置坐标;
设定与所述控制点相对应的基准点的第二位置...

【专利技术属性】
技术研发人员:黄双萍庄镇州李晓辉
申请(专利权)人:华南理工大学中通服建设有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1