一种手写文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40272938 阅读：29 留言：0更新日期：2024-02-02 22:58

本发明专利技术公开了一种手写文本识别方法、装置、电子设备及存储介质。方法包括：获取待识别图像，待识别图像中包括手写文本；基于至少两种特征提取模型对待识别图像进行特征提取，得到至少两个特征数据，对至少两个特征数据进行融合处理，得到待识别图像的融合特征；基于语义处理模型对待识别图像的融合特征进行处理，得到融合特征对应的语义时序特征；基于解码模型对语义时序特征进行解码处理，得到待识别图像对应的文本内容。本方案通过对包含手写文本的图像进行识别，得到图像的融合特征和语义时序特征，进而通过解码模型对语义时序特征进行解码处理得到图像对应的文本内容，提高了对手写文本的识别的精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其涉及一种手写文本识别方法、装置、电子设备及存储介质。

技术介绍

1、近年来，ocr(optical character recognition，光学字符识别)文本识别任务作为计算机视觉领域的核心问题之一，对于自然场景文本检测和识别也取得了一定的效果，但是由于手写文本受字体、字迹和书写方式等因素的影响，导致通过ocr文本识别技术对手写文本进行识别存在难度，无法满足对手写文本识别的需求。

技术实现思路

1、本专利技术提供了一种手写文本识别方法、装置、电子设备及存储介质，以解决对手写文本识别难度大、精度低的问题。

2、根据本专利技术的一方面，提供了一种手写文本识别方法，包括：

3、获取待识别图像，待识别图像中包括手写文本；

4、基于至少两种特征提取模型对待识别图像进行特征提取，得到至少两个特征数据，对至少两个特征数据进行融合处理，得到待识别图像的融合特征；

5、基于语义处理模型对待识别图像的融合特征进行处理，得到融合特征对应的语义时序特征；

6、基于解码模型对语义时序特征进行解码处理，得到待识别图像对应的文本内容。

7、可选的，至少两种特征提取模型包括文本-图像处理模型，包括图像处理子模型和文本处理子模型，其中，图像处理子模型对待识别图像进行特征提取；文本处理子模型基于提示文本信息对待识别图像进行特征提取。

8、可选的，对至少两个特征数据进行融合处理，得到待识别图像的融合特征，包括：

9、将每一特征数据分别作为一个向量维度进行数据拼接，得到多个向量维度的融合特征。

10、可选的，解码模型为自注意力模型或者连接时序分类模型。

11、可选的，获取待识别图像，包括：

12、获取原始图像，识别原始图像中的手写文本，对原始图像中的连续手写文本所在区域进行截图，得到待识别图像。

13、可选的，获取待识别图像之后，还包括：

14、对待识别图像进行质量评估，得到待识别图像的质量评估数据；

15、在基于待识别图像的质量评估数据确定待识别图像为模糊图像的情况下，对待识别图像进行超分辨率处理。

16、可选的，对待识别图像进行超分辨率处理，包括：

17、对待识别图像进行预处理，得到待识别图像的先验图像；

18、基于第一处理模型对先验图像和待识别图像进行预测处理，得到待识别图像的粗预测图像；基于第二处理模型对粗预测图像进行残差预测，得到粗预测图像对应的残差图像；

19、基于粗预测图像和残差图像确定待识别图像对应的超分辨率图像。

20、根据本专利技术的另一方面，提供了一种手写文本识别装置，包括：

21、图像获取模块，用于获取待识别图像，待识别图像中包括手写文本；

22、融合特征确定模块，用于基于至少两种特征提取模型对待识别图像进行特征提取，得到至少两个特征数据，对至少两个特征数据进行融合处理，得到待识别图像的融合特征；

23、语义时序特征确定模块，用于基于语义处理模型对待识别图像的融合特征进行处理，得到融合特征对应的语义时序特征；

24、文本内容确定模块，用于基于解码模型对语义时序特征进行解码处理，得到待识别图像对应的文本内容。

25、根据本专利技术的另一方面，提供了一种电子设备，电子设备包括：

26、至少一个处理器；以及

27、与至少一个处理器通信连接的存储器；其中，

28、存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本专利技术任一实施例的手写文本识别方法。

29、根据本专利技术的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本专利技术任一实施例的手写文本识别方法。

30、本专利技术实施例的技术方案，通过获取待识别图像，待识别图像中包括手写文本；基于至少两种特征提取模型对待识别图像进行特征提取，得到至少两个特征数据，对至少两个特征数据进行融合处理，得到待识别图像的融合特征；基于语义处理模型对待识别图像的融合特征进行处理，得到融合特征对应的语义时序特征；基于解码模型对语义时序特征进行解码处理，得到待识别图像对应的文本内容。本方案通过对包含手写文本的图像进行识别，得到图像的融合特征和语义时序特征，进而通过解码模型对融合特征和语义时序特征进行解码处理得到图像对应的文本内容，解决对手写文本识别难度大、精度低的问题，提高了对手写文本的识别的精确度。

31、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种手写文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述至少两种特征提取模型包括文本-图像处理模型，包括图像处理子模型和文本处理子模型，其中，所述图像处理子模型对所述待识别图像进行特征提取；所述文本处理子模型基于提示文本信息对所述待识别图像进行特征提取。

3.根据权利要求1所述的方法，其特征在于，对所述至少两个特征数据进行融合处理，得到所述待识别图像的融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述解码模型为自注意力模型或者连接时序分类模型。

5.根据权利要求1所述的方法，其特征在于，所述获取待识别图像，包括：

6.根据权利要求1所述的方法，其特征在于，获取待识别图像之后，还包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述待识别图像进行超分辨率处理，包括：

8.一种手写文本识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储

...

【技术特征摘要】

1.一种手写文本识别方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，对所述至少两个特征数据进行融合处理，得到所述待识别图像的融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述解码模型为自注意力模型或者连接时序分类模型。

5...

【专利技术属性】
技术研发人员：黎安，
申请(专利权)人：联仁健康医疗大数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人