本发明专利技术涉及图像文字识别领域,特别涉及一种复杂图像文字序列识别方法,本发明专利技术采用一个滑动采样框对待识别图像文字序列进行滑动采样,通过CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输入信号还包括上一时刻递归神经网络的输出信号。本发明专利技术方法克服了复杂图像文字序列的切分难题,显著提高了图像文字的识别效率和准确率。
【技术实现步骤摘要】
本专利技术涉及图像文字识别领域,特别涉及一种复杂图像文字序列识别方法。
技术介绍
随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR)。常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别,而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来,该方法主要、问题为:当待识别图像文字中包含背景噪音、字符扭曲、字符粘合等情况下,造成文字的切分困难。特别是当待识别图像文字中混合了左右偏旁的汉子、字母、数字、符号时,或者在待识别图像文字中混合有半角和全角格式的字符,由于格式的差异造成字符大小和间隙存在区别,通过简单的投影法不能准确的将待识别图像文字中的单字符切分出来。而一旦切分出现了问题,就很难得到准确的识别结果。面对巨大的识别需要急需一种能够快速高效的图像文字识别方法。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种复杂图像文字序列识别方法。本专利技术方法通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络(RNN)中,通过递归神经网络实现连续预测多个字符的目的。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种复杂图像文字序列识别方法通过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中;由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据;依次迭代;将每个时刻所述递归神经网络的识别结果记录合并,得到待识别图像文字序列的完整识别结果。具体的,本专利技术方法包含以下实现步骤:(1)构建卷积神经网络和递归神经网络模型,所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据;(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。具体的,本专利技术方法中所使用的递归神经网络向前算法的计算公式如下:aht=ΣiIwihxit+Σh′Hwh′hbh′t-1]]>bht=θ(aht)]]>akt=ΣhHwhkbht]]>ykt=exp(akt)Σk′kexp(ak′t)]]>其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;wih,wh'h,为对应的权重参数。为当前时刻递归神经网络输出层神经元的输入;whk为输出层各神经元对应的权重;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。进一步的,本专利技术方法中,信号正向传递时用到的参数wih,wh'h都是跨时序共享的,这样避免了模型复杂度的线性增长,导致可能的过拟合。进一步的,本专利技术采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果,及时调整神经网络的训练方向,防止过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。作为一种优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。进一步的,在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母以及标点符号分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。相应的,本专利技术中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母以及标点符号。特别的,很多左右结构的汉字具有相同的部首,而本专利技术的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,将相同部首标注统一标注,将对应偏旁分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。进一步的,在对待处理图像文字进行滑动采样处理前,包含进行归一化处理的过程,所述待处理图像文字包含:训练样本、开发样本、待识别图像文字;所述归一化处理包括:统一待处理图像文字的大小,设置待识别图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。进一步的,在进行所述卷积神经网络和递归神经网络模型训练时,包含对训练样本和开发样本进行人工标注的过程;对训练样本和开发样本进行人工标注时,将汉字字本文档来自技高网...
【技术保护点】
一种复杂图像文字序列识别方法,其特征在于,包含以下实现过程:经过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中,由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据;依次迭代,将每个时刻所述递归神经网络的识别结果记录合并,得到待处理图像文字序列的识别结果。
【技术特征摘要】
1.一种复杂图像文字序列识别方法,其特征在于,包含以下实现过程:
经过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得
的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入
到递归神经网络中,由所述递归神经输出识别结果;所述递归神经网络的输入
信号还包括:上一时刻递归神经网络的输出数据;
依次迭代,将每个时刻所述递归神经网络的识别结果记录合并,得到待处
理图像文字序列的识别结果。
2.如权利要求1所述的方法,其特征在于,所述递归神经网络采用以下向
前算法公式:
aht=ΣiIwihxit+Σh′Hwh′hbh′t-1]]>bht=θ(aht)]]>akt=ΣhHwhkbht]]>ykt=exp(akt)Σk′kexp(ak′t)]]>其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元
个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中
隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为
当前时刻递归神经网络输出层神经元的输...
【专利技术属性】
技术研发人员:刘世林,何宏靖,陈炳章,吴雨浓,姚佳,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。