基于哈希检索的手写英文单词智能识别方法技术

技术编号:20363316 阅读:36 留言:0更新日期:2019-02-16 16:43
本发明专利技术公开提供了一种基于哈希检索的手写英文单词智能识别方法,包括以下步骤:步骤(1):提取数据库中每一张手写英文单词图像的视觉特征和标签信息,分别得到对应的视觉特征矩阵和标签信息矩阵;步骤(2):根据标签信息矩阵计算数据库中图像两两之间的相似性,得到相似性矩阵;步骤(3):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,获得数据库中每一张手写英文单词图像的哈希码;步骤(4):根据获得的哈希码,学习视觉特征到哈希码的映射,即哈希函数;步骤(5):读取待检索的手写英文单词图像,利用哈希码检索数据库中图像的哈希码,完成图像识别。

【技术实现步骤摘要】
基于哈希检索的手写英文单词智能识别方法
本专利技术涉及字符识别领域,具体涉及一种基于哈希检索的手写英文单词智能识别方法。
技术介绍
随着信息技术的飞速发展,机器识别手写字符成为了研究的热门领域,字符识别技术涉及到图像处理、机器学习、模式识别等多个学科,并且广泛应用于手写文档电子化,减少人工录入成本,提高输入效率。目前应用于脱机手写英文单词识别的主要方法有三类:结构方法、统计方法和神经网络方法。结构方法在实际应用中抗干扰能力差且复杂度高,这种技术已经逐渐衰弱。统计方法有很强的理论基础,其中基于隐马尔科夫模型的统计学方法具有很好的建模能力,对噪声和变形也都有较好的适应性,已经被广泛应用于脱机手写字符的识别中,并取得了不错的成果。近年来,深度学习发展迅速,由于神经网络有较强的学习能力和容错能力,很多基于神经网络的方法被提出,主要分为两大类:基于卷积神经网络的和基于递归神经网络的方法。基于卷积神经网络的方法一般用来做分类任务,利用卷积层提取图片的本质特征,用多层的全连接作为分类器;基于递归神经网络的方法利用递归神经网络考虑时间序列的优势,每一个时间戳生成一个字符,得到的字符序列就是识别结果。但是,当前采用的脱机手写英文单词识别方法均存在手写单词形状严重变形等问题,脱机手写字符识别一直以来都是字符识别领域中的一个重点和难点。另外,基于检索的手写英文单词识别中需要对单词图库进行检索对比,而且数据量巨大,传统的检索方法往往难以保证实时性。
技术实现思路
针对以上问题,本专利技术的目的在于提供一种基于哈希检索的手写英文单词智能识别方法。基于哈希学习的检索在计算机视觉、机器学习、信息检索及相关领域已经得到了广泛的应用。哈希学习方法将文档、图片、视频或者其他类型的数据编码成二进制码,实际上是将数据从原始空间映射到海明空间中并且保持原始数据的相似性。有了二进制码,由于在同一空间中成对比较的高效性,最近邻搜索的任务可以在大规模数据集上进行。本专利技术为实现上述目的,通过以下技术方案实现:一种基于哈希检索的手写英文单词智能识别方法,包括以下步骤:步骤(1):提取数据库中每一张手写英文单词图像的视觉特征和标签信息,分别得到对应的视觉特征矩阵和标签信息矩阵;步骤(2):根据标签信息矩阵计算数据库中图像两两之间的相似性,得到相似性矩阵;步骤(3):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,获得数据库中每一张手写英文单词图像的哈希码;步骤(4):根据获得的哈希码,学习视觉特征到哈希码的映射,即哈希函数;步骤(5):读取待检索的手写英文单词图像,利用哈希码检索数据库中图像的哈希码,完成图像识别。进一步,所述步骤(1)的具体过程为:步骤(1.1):假设有n幅手写英文单词图像,对每幅图像提取d维的视觉特征,使用了预训练好的VGG-19中conv5_4层的输出作为提取的图片特征,得到一个n×d视觉特征数据矩阵X=[x1,x2,...,xn]∈Rn×d,其中n表示实例的数量,d表示特征维度,c表示类别数;步骤(1.2):对n幅手写英文单词图像进行标注,得到标签信息矩阵L=[l1,l2,...,ln]∈Rn×c,其中n表示实例的数量,d表示特征维度,c表示类别数;具体包括:采取人工的方式对数据进行类别标注,然后对所标注的结果进行筛选和统一;假设标注后数据集的所有图像一共有c个标签,每个标签对应一个单词,每幅图像的监督信息可以表示为c维的向量;如果该手写英文单词图像属于某个标签,那么该标签向量中对应位置为1,否则为0。进一步,所述步骤(3)包括:步骤(3.1):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,设计哈希函数;步骤(3.2):根据哈希函数设计优化算法,获得数据库中每一张手写英文单词图像的哈希码。进一步,步骤(3.1)具体包括:首先考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来,即XW;其次考虑嵌入标签信息,即假设标签可以被映射成哈希码,即LG;目标哈希函数为:s.t.B∈{-1,1}n×r其中S为相似性矩阵,L为标签矩阵,W和G都为映射矩阵,T为转置矩阵,B为最终要学习的哈希码,||·||F表示Frobenius范数,γ为参数,μ、θ均为平衡参数。进一步,所述步骤(3.2)具体包括:使用迭代算法,每一次迭代分成多步,每一步都固定其他参数更新一个参数,直到收敛或者达到最大迭代次数;其中:每一次迭代分为三个步骤:步骤(3.2.1):固定变量B和G,更新变量W;步骤(3.2.2):固定变量W和B,更新变量G;步骤(3.2.3):固定变量G和W,更新变量B。进一步,所述步骤(3.2.1)中,当变量B和G固定时,目标哈希函数可以被改写成公式1:可以通过求公式1导数为零的解得到公式1的闭式解,得到公式2:W=C-1(AG+θXTB)(GTDG+θIr×r)-1其中A=XTSL,C=XTX,D=LTL。进一步,所述步骤(3.2.3)中,当变量G和W固定时,目标哈希函数可以被改写成公式3:s.t.B∈{-1,1}n×r.对于公式3进行如下变换得到公式4:s.t.B∈{-1,1}n×r.其中Tr(·)是迹,由于和是常数,公式4可以进一步简化为公式5:s.t.B∈{-1,1}n×r.因此,B的闭式解如下:B=sgn(μLG+θXW)其中sgn(·)是元素级别的符号函数。进一步,所述步骤(4)具体包括:利用学得的哈希码学习哈希函数时,需要学习r个二值分类器,r为哈希码长度,每个分类器学习从原始数据到学得的哈希码上每一位的映射,所述二值分类器采用SVM分类器,r个SVM分类器组成了哈希函数。进一步,所述步骤(5)包括:首先提取待检索的手写英文单词图像的深度视觉特征,使用步骤(4)中学得的哈希函数学得哈希码,检索数据库中的手写英文单词图像,其中海明距离最近的图像为检索结果,该图像对应的单词就是最终的识别结果。对比现有技术,本专利技术有益效果在于:(1)本专利技术在对数据进行二进制编码的时候充分考虑数据的相似性和标签信息。(2)本专利技术提出的目标函数解决了离散优化问题。(3)本专利技术提出的优化算法能学习到精确的哈希码并且整体算法收敛速度快,大大减少了训练时间。(4)本专利技术将手写英文单词图像转化为哈希码,在保证有效的字符识别率的情况下,使用基于哈希方法的检索大大提升识别效率。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。附图说明附图1是本专利技术的方法流程图。附图2是本专利技术的检索过程示意图。具体实施方式下面结合附图对本专利技术的具体实施方式做出说明。如图1所示的一种基于哈希检索的手写英文单词智能识别方法,包括如下步骤:步骤(1):提取数据库中每一张手写英文单词图像的视觉特征和标签信息,分别得到对应的视觉特征矩阵和标签信息矩阵。步骤(1)的具体过程包括:步骤(1.1):假设有n幅手写英文单词图像,对每幅图像提取d维的视觉特征,使用了预训练好的VGG-19中conv5_4层的输出作为提取的图片特征,得到一个n×d视觉特征数据矩阵X=[x1,x2,...,xn]∈Rn×d,其中n表示实例的数量,d表示特征维度,c表示类别数;步骤(1.2):采取人工的方式对数据进行类别标注,即多人对数据集中的数据进行标注,然后对所标注的结果进行筛选和统一;本文档来自技高网...

【技术保护点】
1.一种基于哈希检索的手写英文单词智能识别方法,其特征在于,包括以下步骤:步骤(1):提取数据库中每一张手写英文单词图像的视觉特征和标签信息,分别得到对应的视觉特征矩阵和标签信息矩阵;步骤(2):根据标签信息矩阵计算数据库中图像两两之间的相似性,得到相似性矩阵;步骤(3):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,获得数据库中每一张手写英文单词图像的哈希码;步骤(4):根据获得的哈希码,学习视觉特征到哈希码的映射,即哈希函数;步骤(5):读取待检索的手写英文单词图像,利用哈希码检索数据库中图像的哈希码,完成图像识别。

【技术特征摘要】
1.一种基于哈希检索的手写英文单词智能识别方法,其特征在于,包括以下步骤:步骤(1):提取数据库中每一张手写英文单词图像的视觉特征和标签信息,分别得到对应的视觉特征矩阵和标签信息矩阵;步骤(2):根据标签信息矩阵计算数据库中图像两两之间的相似性,得到相似性矩阵;步骤(3):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,获得数据库中每一张手写英文单词图像的哈希码;步骤(4):根据获得的哈希码,学习视觉特征到哈希码的映射,即哈希函数;步骤(5):读取待检索的手写英文单词图像,利用哈希码检索数据库中图像的哈希码,完成图像识别。2.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法,其特征在于,所述步骤(1)的具体过程为:步骤(1.1):假设有n幅手写英文单词图像,对每幅图像提取d维的视觉特征,使用了预训练好的VGG-19中conv54层的输出作为提取的图片特征,得到一个n×d视觉特征数据矩阵X=[x1,x2,...,xn]∈Rn×d,其中n表示实例的数量,d表示特征维度,c表示类别数;步骤(1.2):对n幅手写英文单词图像进行标注,得到标签信息矩阵L=[l1,l2,...,ln]∈Rn×c,其中n表示实例的数量,d表示特征维度,c表示类别数;具体包括:采取人工的方式对数据进行类别标注,然后对所标注的结果进行筛选和统一;假设标注后数据集的所有图像一共有c个标签,每个标签对应一个单词,每幅图像的监督信息可以表示为c维的向量;如果该手写英文单词图像属于某个标签,那么该标签向量中对应位置为1,否则为0。3.如权利要求1所述的一种基于哈希检索的手写英文单词智能识别方法,其特征在于,所述步骤(3)包括:步骤(3.1):利用视觉特征矩阵、标签信息矩阵和相似性矩阵,设计哈希函数;步骤(3.2):根据哈希函数设计优化算法,获得数据库中每一张手写英文单词图像的哈希码。4.如权利要求3所述的一种基于哈希检索的手写英文单词智能识别方法,其特征在于,所述步骤(3.1)具体包括:首先考虑哈希码是原始数据核化之后通过一个映射矩阵映射而来,即XW;其次考虑嵌入标签信息,即假设标签可以被映射成哈希码,即LG;目标哈希函数为:s.t.B∈{-1,1}n×r其中S为...

【专利技术属性】
技术研发人员:马磊陈义学陈霞张华英
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1