文本识别方法和装置制造方法及图纸

技术编号：34374486 阅读：76 留言：0更新日期：2022-07-31 12:47

本公开提供一种文本识别方法和装置，属于图像处理领域。该方法包括：获取待识别的文本图像；调用训练后的文本识别模型，其中，文本识别模型包括：特征提取模块，基于文本图像得到特征映射组；上下文编码模块，对于每个时间步，基于特征映射组进行处理，得到当前时间步的目标上下文向量；解码模块，对于每个当前时间步，基于目标上下文向量和上一个时间步对应的目标隐状态向量，确定当前时间步对应的文本信息和原始隐状态向量，目标隐状态向量基于调节向量确定，调节向量基于上一个时间步的多个参考时间步的特征映射确定。采用本公开，解码模块可以加强当前时间步附近时间步的特征信息，进而可以实现提高文本识别的准确性。而可以实现提高文本识别的准确性。而可以实现提高文本识别的准确性。

Text recognition method and device

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法和装置

[0001]本专利技术涉及图像处理领域，尤其涉及一种文本识别方法和装置。

技术介绍

[0002]自然场景文字识别是从带文字的图片中识别出字符序列的过程(对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母)，是一项具有极大挑战性的课题。在实际应用中，可以基于attention(注意力)进行文本识别。除了图片背景复杂，光照变化等因素外，识别输出空间的复杂性也是一大困难，由于文字由数量不固定的字母组成，因此，自然场景文字识别需要从图片中识别长度不固定的序列。
[0003]目前有两种解决思路：第一种是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决；第二种是基于整体分析的策略，即序列到序列的方法，先将图像编码，然后进行序列解码直接得出整个字符串。
[0004]但是，对于长文本而言，上述第一种策略的处理速度较慢，耗时较长；上述第二种策略的精度不高，导致文本识别的准确性较低。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供了一种文本识别方法和装置，以解决文本识别的准确性较低的问题。
[0006]根据本公开的一方面，提供了一种文本识别方法，上述方法包括：
[0007]获取待识别的文本图像；
[0008]调用训练后的文本识别模型，其中，文本识别模型包括特征提取模块、上下文编码模块和解码模块；
[0009]在特征提取模块中，基于文本图像进行处理，得到文本图像的特征映射组，其中，特征映射组包括多个时间步的特...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：获取待识别的文本图像；调用训练后的文本识别模型，其中，所述文本识别模型包括特征提取模块、上下文编码模块和解码模块；在所述特征提取模块中，基于所述文本图像进行处理，得到所述文本图像的特征映射组，其中，所述特征映射组包括多个时间步的特征映射；在所述上下文编码模块中，对于每个当前时间步，基于所述特征映射组进行处理，得到当前时间步的目标上下文向量；在所述解码模块中，对于每个当前时间步，基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量，确定所述文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量，其中，所述目标隐状态向量基于所述上一个时间步的原始隐状态向量和调节向量确定，所述调节向量基于所述上一个时间步的多个参考时间步的特征映射确定，每个参考时间步处于所述上一个时间步的预设范围内。2.根据权利要求1所述的文本识别方法，其特征在于，基于所述上一个时间步的多个参考时间步的特征映射确定调节向量的方法包括：对于所述上一个时间步对应的调节向量，基于所述上一个时间步对应的多个参考时间步的特征映射进行平均池化处理，得到所述上一个时间步的调节向量。3.根据权利要求2所述的文本识别方法，其特征在于，所述基于所述上一个时间步对应的多个参考时间步的特征映射进行平均池化处理，得到所述上一个时间步的调节向量，包括：以所述上一个时间步对应的特征映射点为中心点，以预设窗口大小在所述特征映射组中选择多个参考时间步的特征映射进行平均池化操作，得到所述上一个时间步的调节向量。4.根据权利要求1所述的文本识别方法，其特征在于，基于所述上一个时间步的原始隐状态向量和调节向量确定目标隐状态向量的方法包括：将所述上一个时间步的原始隐状态向量与所述上一个时间步的调节向量逐点相加，得到所述目标隐状态向量。5.根据权利要求1所述的文本识别方法，其特征在于，所述特征映射组包括M个时间步的特征映射，M为大于0的整数；所述对于每个当前时间步，基于当前时间步的目标上下文向量和当前时间步的上一个时间步对应的目标隐状态向量，确定所述文本图像中的当前时间步对应的文本信息和当前时间步的原始隐状态向量，包括：在第1个时间步中，基于所述第1个时间步的目标上下文向量和目标隐状态向量初始值进行处理，得到所述第1个时间步对应的识别结果和所述第1个时间步的原始隐状态向量，基于所述第1个时间步的原始隐状态向量和第1个时间步的调节向量确定所述第1个时间步的目标隐状态向量，其中，所述目标隐状态向量初始值设置为预设向量；在第N个时间步中，基于所述第N个时间步的目标上下文向量和第N
‑
1个时间步目标隐状态向量进行处理，得到所述第N个时间步对应的识别结果和第N个时间步的原始隐状态向量，基于所述第N个时间步的原始隐状态向量和第N个时间步的调节向量确定所述第N个时
间步的目标隐状态向量，其中，2≤N≤M；在所述M个时间步中，依次执行识别得到第N个时间步对应的识别结果的过程，直到完成所...

【专利技术属性】
技术研发人员：秦勇，
申请(专利权)人：深圳市星桐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人