文本识别方法和装置制造方法及图纸

技术编号:34374486 阅读:70 留言:0更新日期:2022-07-31 12:47
本公开提供一种文本识别方法和装置,属于图像处理领域。该方法包括:获取待识别的文本图像;调用训练后的文本识别模型,其中,文本识别模型包括:特征提取模块,基于文本图像得到特征映射组;上下文编码模块,对于每个时间步,基于特征映射组进行处理,得到当前时间步的目标上下文向量;解码模块,对于每个当前时间步,基于目标上下文向量和上一个时间步对应的目标隐状态向量,确定当前时间步对应的文本信息和原始隐状态向量,目标隐状态向量基于调节向量确定,调节向量基于上一个时间步的多个参考时间步的特征映射确定。采用本公开,解码模块可以加强当前时间步附近时间步的特征信息,进而可以实现提高文本识别的准确性。而可以实现提高文本识别的准确性。而可以实现提高文本识别的准确性。

Text recognition method and device

【技术实现步骤摘要】
文本识别方法和装置


[0001]本专利技术涉及图像处理领域,尤其涉及一种文本识别方法和装置。

技术介绍

[0002]自然场景文字识别是从带文字的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母),是一项具有极大挑战性的课题。在实际应用中,可以基于attention(注意力)进行文本识别。除了图片背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量不固定的字母组成,因此,自然场景文字识别需要从图片中识别长度不固定的序列。
[0003]目前有两种解决思路:第一种是基于自底向上的策略,将识别问题拆分为字符检测、字符识别和字符组合,逐个解决;第二种是基于整体分析的策略,即序列到序列的方法,先将图像编码,然后进行序列解码直接得出整个字符串。
[0004]但是,对于长文本而言,上述第一种策略的处理速度较慢,耗时较长;上述第二种策略的精度不高,导致文本识别的准确性较低。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种文本识别方法和装置,以解决文本识别的准确性较低的问题。
[0006]根据本公开的一方面,提供了一种文本识别方法,上述方法包括:
[0007]获取待识别的文本图像;
[0008]调用训练后的文本识别模型,其中,文本识别模型包括特征提取模块、上下文编码模块和解码模块;
[0009]在特征提取模块中,基于文本图像进行处理,得到文本图像的特征映射组,其中,特征映射组包括多个时间步的特征映射;
[0010]在上下文编码模块中,对于每个当前时间步,基于特征映射组进行处理,得到当前时间步的目标上下文向量;
[0011]在解码模块中,对于每个当前时间步,基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量,确定文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量,其中,目标隐状态向量基于上述上一个时间步的原始隐状态向量和调节向量确定,所述调节向量基于上述上一个时间步的多个参考时间步的特征映射确定,每个参考时间步处于上述上一个时间步的预设范围内。
[0012]根据本公开的另一方面,提供了一种文本识别装置,上述装置包括:
[0013]获取模块,用于获取待识别的文本图像;
[0014]调用模块,用于调用训练后的文本识别模型,其中,文本识别模型包括特征提取模块、上下文编码模块和解码模块;
[0015]在特征提取模块中,基于文本图像进行处理,得到文本图像的特征映射组,其中,
特征映射组包括多个时间步的特征映射;
[0016]在上下文编码模块中,对于每个当前时间步,基于特征映射组进行处理,得到当前时间步的目标上下文向量;
[0017]在解码模块中,对于每个当前时间步,基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量,确定文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量,其中,目标隐状态向量基于上述上一个时间步的原始隐状态向量和调节向量确定,所述调节向量基于上述上一个时间步的多个参考时间步的特征映射确定,每个参考时间步处于上述上一个时间步的预设范围内。
[0018]根据本公开的另一方面,提供了一种电子设备,包括:
[0019]处理器;以及
[0020]存储程序的存储器,
[0021]其中,上述程序包括指令,上述指令在由上述处理器执行时使上述处理器执行上述文本识别方法。
[0022]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使计算机执行上述文本识别方法。
[0023]本公开实施例中,获取待识别的文本图像后,调用训练后的文本识别模型,文本识别模型包括特征提取模块、上下文编码模块和解码模块,在特征提取模块中,基于文本图像进行处理,得到文本图像的特征映射组,在上下文编码模块中,对于每个时间步,基于特征映射组进行处理,得到当前时间步的目标上下文向量,在解码模块中,对于每个当前时间步,基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量,确定文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量,其中,目标隐状态向量基于上述上一个时间步的原始隐状态向量和调节向量确定,所述调节向量基于上述上一个时间步的多个参考时间步的特征映射确定,每个参考时间步处于上述上一个时间步的预设范围内。因此,解码模块在进行每一个时间步的处理时,通过上述多个参考时间步的特征映射,可以加强当前时间步附近时间步的特征信息,对于任意文本的识别来说,其附近的文本信息更有参考价值,进而可以实现提高文本识别的准确性。
附图说明
[0024]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0025]图1示出了根据本公开示例性实施例的文本识别方法的流程图;
[0026]图2示出了根据本公开示例性实施例的上下文编码模块处理流程图;
[0027]图3示出了根据本公开示例性实施例的文本识别装置的示意性框图;
[0028]图4示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0029]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0030]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0031]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0032]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0033]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0034]本公开实施例提供了一种文本识别方法,该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别的文本图像;调用训练后的文本识别模型,其中,所述文本识别模型包括特征提取模块、上下文编码模块和解码模块;在所述特征提取模块中,基于所述文本图像进行处理,得到所述文本图像的特征映射组,其中,所述特征映射组包括多个时间步的特征映射;在所述上下文编码模块中,对于每个当前时间步,基于所述特征映射组进行处理,得到当前时间步的目标上下文向量;在所述解码模块中,对于每个当前时间步,基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量,确定所述文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量,其中,所述目标隐状态向量基于所述上一个时间步的原始隐状态向量和调节向量确定,所述调节向量基于所述上一个时间步的多个参考时间步的特征映射确定,每个参考时间步处于所述上一个时间步的预设范围内。2.根据权利要求1所述的文本识别方法,其特征在于,基于所述上一个时间步的多个参考时间步的特征映射确定调节向量的方法包括:对于所述上一个时间步对应的调节向量,基于所述上一个时间步对应的多个参考时间步的特征映射进行平均池化处理,得到所述上一个时间步的调节向量。3.根据权利要求2所述的文本识别方法,其特征在于,所述基于所述上一个时间步对应的多个参考时间步的特征映射进行平均池化处理,得到所述上一个时间步的调节向量,包括:以所述上一个时间步对应的特征映射点为中心点,以预设窗口大小在所述特征映射组中选择多个参考时间步的特征映射进行平均池化操作,得到所述上一个时间步的调节向量。4.根据权利要求1所述的文本识别方法,其特征在于,基于所述上一个时间步的原始隐状态向量和调节向量确定目标隐状态向量的方法包括:将所述上一个时间步的原始隐状态向量与所述上一个时间步的调节向量逐点相加,得到所述目标隐状态向量。5.根据权利要求1所述的文本识别方法,其特征在于,所述特征映射组包括M个时间步的特征映射,M为大于0的整数;所述对于每个当前时间步,基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量,确定所述文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量,包括:在第1个时间步中,基于所述第1个时间步的目标上下文向量和目标隐状态向量初始值进行处理,得到所述第1个时间步对应的识别结果和所述第1个时间步的原始隐状态向量,基于所述第1个时间步的原始隐状态向量和第1个时间步的调节向量确定所述第1个时间步的目标隐状态向量,其中,所述目标隐状态向量初始值设置为预设向量;在第N个时间步中,基于所述第N个时间步的目标上下文向量和第N

1个时间步目标隐状态向量进行处理,得到所述第N个时间步对应的识别结果和第N个时间步的原始隐状态向量,基于所述第N个时间步的原始隐状态向量和第N个时间步的调节向量确定所述第N个时
间步的目标隐状态向量,其中,2≤N≤M;在所述M个时间步中,依次执行识别得到第N个时间步对应的识别结果的过程,直到完成所...

【专利技术属性】
技术研发人员:秦勇
申请(专利权)人:深圳市星桐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1