基于稀疏自编码码本实现笔迹鉴别的系统及方法技术方案

技术编号:14953282 阅读:101 留言:0更新日期:2017-04-02 10:08
本发明专利技术的基于稀疏自编码码本实现笔迹鉴别的系统及方法,包括图像预处理模块,用以对查询笔迹样本和参考笔迹样本图像进行预处理;参数学习模块,用以根据稀疏自编码和聚类方法来获得权重和码本的参数;特征提取模块,用以根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;距离计算模块,用以最终获得查询笔迹样本书写者的候选列表。采用该系统及方法,利用稀疏自编码来提取图像特征,对所获得的特征间距离进行比较排序,即可实现笔记鉴别,无需对原始笔记图像进行文本分割,相较以往的方法更简洁,对多语种的笔迹鉴别鲁棒性强。

【技术实现步骤摘要】

本专利技术涉及计算机视觉
,特别涉及笔记鉴别
,具体是指一种基于智能策略实现主动加载内容的对等网络系统及方法。
技术介绍
笔迹鉴别技术目的在于自动鉴别书写人的身份。由于笔迹鉴别在诸如司法、文物鉴别等领域有很广泛的应用,该技术越来越受到学术与工业方面的关注。笔迹识别一般分为笔迹鉴别和笔迹校验。笔迹鉴别是指在已有参考笔迹样本的情况下,确定查询笔迹样本书写人的身份,而笔迹校验目的在于判断两份笔迹样本是否为同一人所写;笔迹识别还被分为文本相关的和文本无关的两类,文本相关是指书写人被要求书写一些指定内容,而文本无关是指对书写内容不作任何要求;另外,文本识别还被分为在线和离线的,离线文本识别只有笔迹图片,而在线文本识别除了笔迹图片,另外提供书写速度、轨迹、压力等等信息。本专利技术是一种离线文本无关的笔迹鉴别方法。现有的计算机自动笔迹鉴别方法一般先提取笔迹样本图片的特征,再进行分类。其中基于码本的特征提取方法在近几年的研究中取得了很好的鉴别效果,其方法为首先使用不同的纹理分割算法来提取纹理图像块,从而生成码本;再通过码本来获得笔迹样本的纹理特征;最后通过比较纹理特征之间的距离来获得候选书写者名单。现有的技术中,在生成码本之前,大部分需要进行文本分割,文本分割的好坏直接会影响到鉴别效果;另外,现有的码本对多语种的鲁棒性不高,即无法利用同一个码本来对不同的语种笔迹提取特征。文本分割和码本鲁棒性不高都会对该技术的实际应用效果产生影响,故现有的技术还需要有待改进的地方。
技术实现思路
本专利技术的目的是克服了上述现有技术的缺点,提供了一种基于稀疏自编码码本实现笔迹鉴别的系统及方法。为了实现上述目的,本专利技术的基于稀疏自编码码本实现笔迹鉴别的系统及方法如下:该计算机软件系统中基于稀疏自编码码本实现笔迹鉴别的系统,包括:图像预处理模块,用以对查询笔迹样本和参考笔迹样本图像进行预处理,得到两者的二值化图像;参数学习模块,用以根据稀疏自编码和k-means聚类方法来获得权重和码本的参数;特征提取模块,用以根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;距离计算模块,用以计算查询笔迹样本特征与参考笔迹样本特征之间的距离,并比较排序,最终获得查询笔迹样本书写者的候选列表。该利用上述系统基于稀疏自编码码本实现笔迹鉴别的方法,包括以下步骤:(1)对查询笔迹样本和参考笔迹样本图像进行预处理,得到两者的二值化图像;(2)根据稀疏自编码和k-means聚类方法来获得权重和码本的参数;(3)根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;(4)计算查询笔迹样本特征与参考笔迹样本特征之间的距离,并比较排序,最终获得查询笔迹样本书写者的候选列表。较佳地,所述的步骤(1)包括以下步骤:(1-1)对所述灰度笔迹样本通过OTSU进行二值化,得到笔迹样本的二值化图像;(1-2)对所述二值化图像进行去噪处理。较佳地,所述步骤(2)包括以下步骤:(2-1)设定一个固定大小的窗口,通过该窗口在所述每张参考笔迹样本二值化图中随机选取一定数量的第一子块Set1,作为训练稀疏自编码模型权重的样本集;(2-2)采用稀疏自编码模型,将网络模型参数随机初始化;(2-3)根据所述的第一子块Set1样本集对稀疏自编码模型进行训练,得到权重参数;(2-4)通过所述的窗口在每张参考笔迹样本的二值化图中随机选取一定数量的第二子块Set2,该样本集数量需远大于第一子块Set1;(2-5)将所述的第二子块Set2样本集作为稀疏自编码模型的前向输入,使用训练得到的权重参数,得到隐含层输出;(2-6)对所述的隐含层输出采用k-means聚类算法,得到码本。更佳地,所述的采用稀疏自编码模型为单隐含层的稀疏自编码模型或多隐含层的稀疏自编码模型。更佳地,所述的将网络模型参数随机初始化,具体包括以下步骤:(2-2-1)随机初始化网络权重参数,输入层和隐含层对应的权重参数矩阵W1和隐含层和输出层对应的权重参数矩阵W2为:W1=rand(-r,r)hiddensize*visiblesize,W2=rand(-r,r)visiblesize*hiddensize,其中hiddensize表示稀疏自编码网络隐含层的个数,visiblesize表示输入层的个数,rand(-r,r)m*n表示大小为m*n的随机矩阵,其元素取值范围为(-r,r),并且,r取上述值时能够使得训练过程更快收敛;(2-2-2)初始化网络加性偏置参数,其中隐含层对应的偏置参数矩阵b1为零矩阵,大小为hiddensize*1,输出层对应的偏置参数矩阵b2为零矩阵,大小为visiblesize*1。更佳地,所述的步骤(2-3)包括以下步骤:(2-3-1)将第一子块Set1样本集转化为一维向量作为稀疏自编码模型的输入,计算输出值:其中sl表示第l层的单元数目(不包含偏置项)。表示第l层第i个单元的输出值且f表示一非线性激活函数sigmoid函数且f(x)=1/(1+e-x),且集合I{x1,2,…,m本文档来自技高网...
基于稀疏自编码码本实现笔迹鉴别的系统及方法

【技术保护点】
一种计算机软件系统中基于稀疏自编码码本实现笔迹鉴别的系统,其特征在于,所述的系统包括:图像预处理模块,用以对查询笔迹样本和参考笔迹样本图像进行预处理,得到两者的二值化图像;参数学习模块,用以根据稀疏自编码和k‑means聚类方法来获得权重和码本的参数;特征提取模块,用以根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;距离计算模块,用以计算查询笔迹样本特征与参考笔迹样本特征之间的距离,并比较排序,最终获得查询笔迹样本书写者的候选列表。

【技术特征摘要】
1.一种计算机软件系统中基于稀疏自编码码本实现笔迹鉴别的系统,其特征在于,所述的系统包括:图像预处理模块,用以对查询笔迹样本和参考笔迹样本图像进行预处理,得到两者的二值化图像;参数学习模块,用以根据稀疏自编码和k-means聚类方法来获得权重和码本的参数;特征提取模块,用以根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;距离计算模块,用以计算查询笔迹样本特征与参考笔迹样本特征之间的距离,并比较排序,最终获得查询笔迹样本书写者的候选列表。2.一种利用权利要求1所述的系统基于稀疏自编码码本实现笔迹鉴别的方法,其特征在于,所述的方法包括以下步骤:(1)对查询笔迹样本和参考笔迹样本图像进行预处理,得到两者的二值化图像;(2)根据稀疏自编码和k-means聚类方法来获得权重和码本的参数;(3)根据权重和码本来提取查询笔迹样本和参考笔迹样本图像的特征;(4)计算查询笔迹样本特征与参考笔迹样本特征之间的距离,并比较排序,最终获得查询笔迹样本书写者的候选列表。3.根据权利要求2所述的基于稀疏自编码码本实现笔迹鉴别的方法,其特征在于,所述的步骤(1)包括以下步骤:(1-1)对所述灰度笔迹样本通过OTSU进行二值化,得到笔迹样本的二值化图像;(1-2)对所述二值化图像进行去噪处理。4.根据权利要求2所述的基于稀疏自编码码本实现笔迹鉴别的方法,其特征在于,所述步骤(2)包括以下步骤:(2-1)设定一个固定大小的窗口,通过该窗口在所述每张参考笔迹样本二值化图中随机选取一定数量的第一子块Set1,作为训练稀疏自编码模型权重的样本集;(2-2)采用稀疏自编码模型,将网络模型参数随机初始化;(2-3)根据所述的第一子块Set1样本集对稀疏自编码模型进行训练,得到权重参数;(2-4)通过所述的窗口在每张参考笔迹样本的二值化图中随机选取一定数量的第...

【专利技术属性】
技术研发人员:朱煜王逸宁
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1