一种用于移动终端的OCR识别方法、装置、存储介质及设备制造方法及图纸

技术编号:29586731 阅读:12 留言:0更新日期:2021-08-06 19:46
本申请公开了一种用于移动终端的OCR识别方法、装置、存储介质及设备,该方法包括:移动终端首先获取待识别的目标图像,然后利用预先构建的OCR识别模型,对目标图像进行识别,得到初始文本向量序列,接着,对初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列,进而可以对处理后的初始文本向量序列进行识别,得到目标图像中文字的识别结果。可见,由于本申请中移动终端在确定出目标图像的初始文本向量序列后,不是直接对其进行分类识别,而是先根据文字的常用程度对其进行分级和降维处理,然后再进行分类识别,从而能够减少识别过程的计算量,提高识别速度,进而满足用户的需求。

【技术实现步骤摘要】
一种用于移动终端的OCR识别方法、装置、存储介质及设备
本申请涉及计算机
,尤其涉及一种用于移动终端的OCR识别方法、装置、存储介质及设备。
技术介绍
随着人工智能(ArtificialIntelligence,简称AI)技术的不断突破和各种智能终端设备的日益普及。多种多样的智能应用在移动终端中频繁出现。目前,人们对于移动终端设备(如手机、平板电脑等)的使用要求越来越高。并且随着移动终端中安装的应用越来越多,端上对于光学字符识别(OpticalCharacterRecognition,简称OCR)识别技术的需求也逐渐强烈。目前在进行OCR识别时,通常采用的识别方案是基于大量标注数据,利用深度学习神经网络模型,学习图像到对应文本的映射关系,用以识别出其他图像中的文本。但当通过移动终端进行OCR识别时,由于终端设备的体积等因素限制,导致了终端设备的计算能力和处理速度相对服务端大型计算设备来说都要弱一些,又由于中文的字符较多(如常用汉字约有1000个,一般常用汉字约有2000个,不常用汉字约有7000个),进而导致在终端设备上进行OCR识别以得到图像对应的中文文本时,不仅无法复用服务端模型,并且进行OCR识别的计算速率也较低,实时性较差,从而无法满足大部分用户的要求。
技术实现思路
本申请实施例的主要目的在于提供一种用于移动终端的OCR识别方法、装置、存储介质及设备,能够有效减少在终端设备上进行OCR识别的计算量,提高识别速度,进而满足用户的需求。本申请实施例提供了一种用于移动终端的OCR识别方法,包括:获取待识别的目标图像;利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列;对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列;其中,所述对所述初始文本向量序列进行分级包括根据文字的常用程度对所述初始文本向量序列进行分级,得到分级结果;所述降维处理包括根据所述分级结果将常用程度低的文字对应的初始文本向量序列的维度降为更低的维度;对所述处理后的初始文本向量序列进行识别,得到所述目标图像中文字的识别结果。一种可能的实现方式中,所述文字的常用程度的分类包括常用文字、一般常用文字和非常用文字;所述降维处理包括降低所述一般常用文字和所述非常用文字对应的初始文本向量序列的维度。一种可能的实现方式中,所述预先构建的OCR识别模型为CRNN网络模型;所述CRNN网络模型包括卷积层、循环网络层、转录层、全连接层和输出层;所述利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列,包括:在将所述目标图像输入所述CRNN网络模型后,利用所述卷积层提取所述目标图像的卷积特征;所述卷积层包括卷积神经网络CNN;将所述卷积特征输入所述循环网络层后,利用所述循环网络层提取所述目标图像的文字序列特征;所述循环网络层包括深层双向长短期记忆网络LSTM;将所述文字特征输入所述转录层后,利用所述转录层对所述文字序列特征进行分类识别,得到初始文本向量序列。一种可能的实现方式中,将所述初始文本向量序列中的每一文字向量作为待识别向量;所述待识别向量的通道数为第一通道数;所述对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列,包括:通过所述全连接层将所述第一通道数的待识别向量转换为第二通道数的待识别向量;所述第二通道数小于所述第一通道数;通过所述全连接层将所述第一通道数的待识别向量转换为第三通道数的待识别向量;所述第三通道数小于所述第二通道数;将所述第一通道数的待识别向量、所述第二通道数的待识别向量和所述第三通道数的待识别向量共同作为处理后的初始文本向量序列。一种可能的实现方式中,所述第一通道数的待识别向量是用来确定常用文字的概率;所述第二通道数的待识别向量是用来确定一般常用文字的概率;所述第三通道数的待识别向量是用来确定非常用文字的概率。一种可能的实现方式中,将所述初始文本向量序列中的每一文字向量作为待识别向量;所述待识别向量的通道数为第四通道数;所述对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列,包括:通过所述全连接层对所述第四通道数的待识别向量进行分类,确定所述待识别向量对应的文字所属的汉字分类类型;所述汉字分类类型包括常用汉字类、一般常用汉字类和非常用汉字类;当所述待识别向量对应的文字属于所述常用汉字类时,直接将由所述第四通道数的待识别向量构成的文本向量序列作为处理后的初始文本向量序列;当所述待识别向量对应的文字属于所述一般常用汉字类时,通过所述全连接层将所述第四通道数的待识别向量转换为第五通道数的待识别向量,并将由所述第五通道数的待识别向量构成的文本向量序列作为处理后的初始文本向量序列;所述第五通道数小于所述第四通道数;当所述待识别向量对应的文字属于所述非常用汉字类时,通过所述全连接层将所述第四通道数的待识别向量转换为第六通道数的待识别向量,并将由所述第六通道数的待识别向量构成的文本向量序列作为处理后的初始文本向量序列;所述第六通道数小于所述第五通道数。一种可能的实现方式中,所述第四通道数的待识别向量是用来确定常用文字的概率;所述第五通道数的待识别向量是用来确定一般常用文字的概率;所述第六通道数的待识别向量是用来确定非常用文字的概率。一种可能的实现方式中,所述对所述处理后的初始文本向量序列进行识别,得到所述目标图像中文字的识别结果,包括:利用所述输出层对所述处理后的初始文本向量序列进行识别,确定所述第一通道数的待识别向量对应的文字为常用文字的概率;确定所述第二通道数的待识别向量对应的文字为一般常用文字的概率;以及确定所述第三通道数的待识别向量对应的文字为非常用文字的概率;或者,确定所述第四通道数的待识别向量对应的文字为常用文字的概率;确定所述第五通道数的待识别向量对应的文字为一般常用文字的概率;以及确定所述第六通道数的待识别向量对应的文字为非常用文字的概率;根据各个所述概率,确定各个所述文字的识别结果。一种可能的实现方式中,所述OCR识别模型的构建方式如下:获取样本图像;根据所述样本图像以及所述样本图像对应的文本识别标签对初始OCR识别模型进行训练,生成所述OCR识别模型。一种可能的实现方式中,所述方法还包括:获取验证图像;将所述验证图像输入所述OCR识别模型,获得所述验证图像的文本识别结果;当验证图像的文本识别结果与所述验证图像对应的文本标记结果不一致时,将所述验证图像重新作为所述样本图像,对所述OCR识别模型进行更新。本申请实施例还提供了一种用于移动终端的OCR识别装置,所述装置包括:第一获取单元,用于获取待识别的目标图像;第一识别单元,用于利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列;处理单元,用于对所述初始文本向量序列进行分级和降维处理,得本文档来自技高网...

【技术保护点】
1.一种用于移动终端的OCR识别方法,其特征在于,所述方法包括:/n获取待识别的目标图像;/n利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列;/n对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列;其中,所述对所述初始文本向量序列进行分级包括根据文字的常用程度对所述初始文本向量序列进行分级,得到分级结果;所述降维处理包括根据所述分级结果将常用程度低的文字对应的初始文本向量序列的维度降为更低的维度;/n对所述处理后的初始文本向量序列进行识别,得到所述目标图像中文字的识别结果。/n

【技术特征摘要】
1.一种用于移动终端的OCR识别方法,其特征在于,所述方法包括:
获取待识别的目标图像;
利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列;
对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列;其中,所述对所述初始文本向量序列进行分级包括根据文字的常用程度对所述初始文本向量序列进行分级,得到分级结果;所述降维处理包括根据所述分级结果将常用程度低的文字对应的初始文本向量序列的维度降为更低的维度;
对所述处理后的初始文本向量序列进行识别,得到所述目标图像中文字的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述文字的常用程度的分类包括常用文字、一般常用文字和非常用文字;所述降维处理包括降低所述一般常用文字和所述非常用文字对应的初始文本向量序列的维度。


3.根据权利要求2所述的方法,其特征在于,所述预先构建的OCR识别模型为CRNN网络模型;所述CRNN网络模型包括卷积层、循环网络层、转录层、全连接层和输出层;所述利用预先构建的OCR识别模型,对所述目标图像进行识别,得到初始文本向量序列,包括:
在将所述目标图像输入所述CRNN网络模型后,利用所述卷积层提取所述目标图像的卷积特征;所述卷积层包括卷积神经网络CNN;
将所述卷积特征输入所述循环网络层后,利用所述循环网络层提取所述目标图像的文字序列特征;所述循环网络层包括深层双向长短期记忆网络LSTM;
将所述文字特征输入所述转录层后,利用所述转录层对所述文字序列特征进行分类识别,得到初始文本向量序列。


4.根据权利要求3所述的方法,其特征在于,将所述初始文本向量序列中的每一文字向量作为待识别向量;所述待识别向量的通道数为第一通道数;所述对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列,包括:
通过所述全连接层将所述第一通道数的待识别向量转换为第二通道数的待识别向量;所述第二通道数小于所述第一通道数;
通过所述全连接层将所述第一通道数的待识别向量转换为第三通道数的待识别向量;所述第三通道数小于所述第二通道数;
将所述第一通道数的待识别向量、所述第二通道数的待识别向量和所述第三通道数的待识别向量共同作为处理后的初始文本向量序列。


5.根据权利要求4所述的方法,其特征在于,所述第一通道数的待识别向量是用来确定常用文字的概率;所述第二通道数的待识别向量是用来确定一般常用文字的概率;所述第三通道数的待识别向量是用来确定非常用文字的概率。


6.根据权利要求3所述的方法,其特征在于,将所述初始文本向量序列中的每一文字向量作为待识别向量;所述待识别向量的通道数为第四通道数;所述对所述初始文本向量序列进行分级和降维处理,得到处理后的初始文本向量序列,包括:
通过所述全连接层对所述第四通道数的待识别向量进行分类,确定所述待识别向量对应的文字所属的汉字分类类型;所述汉字分类类型包括常用汉字类、一般常用汉字类和非常用汉字类;
当所述待识别向量对应的文字属于所述常用汉字类时,直接将由所述第四通道数的待识别向量构成的文本向量序列作为处理后的初始文本向量序列;
当所述待识别向量对应的文字属于所述一般常用汉字类时,通过所述全连接层将所述第四通道数的待识别向量转换为第五通道数的待识别向量,并将由所...

【专利技术属性】
技术研发人员:卢永晨黄灿王长虎
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1