一种复杂图像文字序列识别方法技术

技术编号：14993731 阅读：63 留言：0更新日期：2017-04-03 23:44

本发明专利技术涉及图像文字识别领域，特别涉及一种复杂图像文字序列识别方法，本发明专利技术采用一个滑动采样框对待识别图像文字序列进行滑动采样，通过CNN对采样获得的子图片进行特征提取，然后将特征输出到RNN中，所述RNN根据输入信号，依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白；依次记录和整合各个时刻RNN的识别结果，获得完整的识别结果；所述RNN每个时刻的输入信号还包括上一时刻递归神经网络的输出信号。本发明专利技术方法克服了复杂图像文字序列的切分难题，显著提高了图像文字的识别效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像文字识别领域，特别涉及一种复杂图像文字序列识别方法。
技术介绍
随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(OCR)。常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取；这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影找到两个文字之间的分界线，根据分界线将文字切分开来，该方法主要、问题为：当待识别图像文字中包含背景噪音、字符扭曲、字符粘合等情况下，造成文字的切分困难。特别是当待识别图像文字中混合了左右偏旁的汉子、字母、数字、符号时，或者在待识别图像文字中混合有半角和全角格式的字符，由于格式的差异造成字符大小和间隙存在区别，通过简单的投影法不能准确的将待识别图像文字中的单字符切分出来。而一旦切分出现了问题，就很难得到准确的识别结果。面对巨大的识别需要急需一种能够...

【技术保护点】
一种复杂图像文字序列识别方法，其特征在于，包含以下实现过程：经过一个滑动采样框对待处理图像文字序列进行滑动采样，并将采样获得的子图片输入到卷积神经网络中；由所述卷积神经网络对输入的子图片提取特征，并将提取的特征数据输入到递归神经网络中，由所述递归神经输出识别结果；所述递归神经网络的输入信号还包括：上一时刻递归神经网络的输出数据；依次迭代，将每个时刻所述递归神经网络的识别结果记录合并，得到待处理图像文字序列的识别结果。

【技术特征摘要】
1.一种复杂图像文字序列识别方法，其特征在于，包含以下实现过程：
经过一个滑动采样框对待处理图像文字序列进行滑动采样，并将采样获得
的子图片输入到卷积神经网络中；
由所述卷积神经网络对输入的子图片提取特征，并将提取的特征数据输入
到递归神经网络中，由所述递归神经输出识别结果；所述递归神经网络的输入
信号还包括：上一时刻递归神经网络的输出数据；
依次迭代，将每个时刻所述递归神经网络的识别结果记录合并，得到待处
理图像文字序列的识别结果。
2.如权利要求1所述的方法，其特征在于，所述递归神经网络采用以下向
前算法公式：
aht=ΣiIwihxit+Σh′Hwh′hbh′t-1]]>bht=θ(aht)]]>akt=ΣhHwhkbht]]>ykt=exp(akt)Σk′kexp(ak′t)]]>其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元
个数，x为卷积神经网络提取出来的特征数据，为当前时刻递归神经网络中
隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出；为
当前时刻递归神经网络输出层神经元的输...

【专利技术属性】
技术研发人员：刘世林，何宏靖，陈炳章，吴雨浓，姚佳，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人