文字的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37678119 阅读:27 留言:0更新日期:2023-05-26 04:44
本申请适用于图像识别领域,提供了一种文字的识别方法,包括:获取图像数据;将图像数据输入至训练好的、融合Cascade R

【技术实现步骤摘要】
文字的识别方法、装置、电子设备及存储介质


[0001]本申请涉及系统图像识别领域,尤其涉及一种文字的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着社会信息化水平的提高,更多有用的信息以图像,视频的形式传播,图像中包含信息的提取就显得尤为重要。作为一种特殊且重要的信息来源,文本的检测与识别得到了广泛的研究与应用。在现有技术中,传统文字识别已经不能针对图像中不能较好的识别文字。

技术实现思路

[0003]本申请的目的在于提出一种文字的识别方法、装置、电子设备及存储介质,以识别图像中的各种文字。
[0004]第一方面,本申请提供了一种文字的识别方法,采用了如下的技术方案:
[0005]获取图像数据;
[0006]将图像数据输入至训练好的、融合Cascade R

CNN模型以及Mask R

CNN模型的第一神经网络模型,通过Cascade R

CNN模型的结构将Mask R

CNN模型中相邻的两个MASK分支之间连接起来,以通过第一神经网络模型提取文本的位置信息;
[0007]根据位置信息获取图像文本数据;
[0008]将图像文本数据输入至训练好的、包括LSTM模型和注意力模块的第二神经网络模型,通过注意力模块计算LSTM模型的解码序列与LSTM模型的编码序列之间的相似度,基于相似度得到文字识别结果。
[0009]第二方面,本申请提供了一种文字的识别装置,采用了如下的技术方案:
[0010]一种文字的识别装置,识别装置包括,包括信息获取模块、位置提取模块、文本获取模块和文字识别模块。
[0011]信息获取模块,用于获取图像数据;
[0012]位置提取模块,用于将图像数据输入至训练好的、融合Cascade R

CNN模型以及Mask R

CNN模型的第一神经网络模型,通过Cascade R

CNN模型的结构将Mask R

CNN模型中相邻的两个MASK分支之间连接起来,以通过第一神经网络模型提取文本的位置信息;
[0013]文本获取模块,用于根据位置信息获取图像文本数据;
[0014]文字识别模块,用于将图像文本数据输入至训练好的、包括LSTM模型和注意力模块的第二神经网络模型,通过注意力模块计算LSTM模型的解码序列与LSTM模型的编码序列之间的相似度,基于相似度得到文字识别结果。
[0015]第三方面,本申请提供了一种电子设备,包括至少一个连接的处理器、存储器,其中,存储器用于存储计算机可读指令,处理器用于调用存储器中的计算机可读指令来执行上述的文字的识别方法的步骤。
[0016]第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
[0017]第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
[0018]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
[0019]本申请与现有技术相比存在的有益效果是:
[0020]本申请融合了Cascade R

CNN和Mask R

CNN网络,融合后的网络一方面在模型训练阶段低交并比的预测结果不会被直接抛弃,而是会传递到后面的阶段,能够保证一直有充足数量的正样本参与训练,另一方面在模型预测阶段同样可以保证生产的预测值传递到下面的阶段质量能够越来越好,从而达到针对不同角度的文本和镜像文本有更高的检测能力,能够在不同的自然场景中均有较好的表现。同时本申请采用添加了Attention注意力机制的LSTM网络,通过Attention机制让同一文本在不同的呈现方式下(镜像、翻转、旋转)均能够学习到较好的特征,从而针对镜像文字识别效果提升明显,远远降低了识别错误率。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请实施例提供的示例性系统架构图;
[0023]图2是本申请实施例提供的文字的识别方法的流程漏洞信息的示意图;
[0024]图3是本申请实施例提供的文字的识别方法的第一神经网络模型的示意图;
[0025]图4是本申请实施例提供的文字的识别方法的第二神经网络模型的示意图;
[0026]图5是本申请实施例提供的文字的识别装置的结构示意图;
[0027]图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0028]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0029]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0030]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实
施例中的技术方案进行清楚、完整地描述。
[0031]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0032]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0033]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字的识别方法,其特征在于,所述识别方法包括:获取图像数据;将所述图像数据输入至训练好的、融合Cascade R

CNN模型以及Mask R

CNN模型的第一神经网络模型,通过所述Cascade R

CNN模型的结构将Mask R

CNN模型中相邻的两个MASK分支之间连接起来,以通过所述第一神经网络模型提取文本的位置信息;根据所述位置信息获取图像文本数据;将所述图像文本数据输入至训练好的、包括LSTM模型和注意力模块的第二神经网络模型,通过所述注意力模块计算所述LSTM模型的解码序列与所述LSTM模型的编码序列之间的相似度,基于所述相似度得到文字识别结果。2.如权利要求1所述的识别方法,其特征在于,所述识别方法还包括:获取多个训练数据以及与每个所述训练数据对应的标注;通过第一预设值*第一预设值大小的卷积核对所述训练数据进行卷积计算得到第i个Mask分支M
i
的输出,i为大于0的正整数;加权求和第i+1个训练数据和经过预设卷积核卷积处理后的第i个Mask分支M
i
的输出;基于第i+1个Mask分支计算加权求和后的输出结果,与第i+1个训练数据的标注训练第一神经网络模型。3.如权利要求2所述的识别方法,其特征在于,所述将所述图像文本数据输入至训练好的、包括LSTM模型和注意力模块的第二神经网络模型,通过所述注意力模块计算所述LSTM模型的解码序列与所述LSTM模型的编码序列之间的相似度,基于所述相似度得到文字识别结果,包括:将所述图像文本数据输入至训练好的LSTM模型,得到多个编码后的图像序列以及与每个所述图像序列对应的解码序列;计算每个所述图像序列以及与所述图像序列对应的解码序列的相似度;归一化每个所述相似度;加权求和每个归一化结果,得到输出值;基于所述输出值得到文字识别结果。4.如权利要求3所述的识别方法,其特征在于,所述基于所述输出值得到文字识别结果,包括:获取所述输出值以及字符集之间的映射列表;根据所述映射列表以及所述输出值计算文字识别结果。5.如权利要求1所述的识别方法,其特征在于,在所述获取图像数据之...

【专利技术属性】
技术研发人员:田福康翟军治杨子江
申请(专利权)人:西安深信科创信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1