基于数据依赖的核学习和字典学习的图像分类及识别方法技术

技术编号:23892404 阅读:63 留言:0更新日期:2020-04-22 07:00
本发明专利技术公开了基于数据依赖的核学习和字典学习的图像分类及识别方法,通过把核学习应用到基于核方法的黎曼流形字典学习和稀疏编码方法上,同时优化核参数、字典学习和稀疏编码三个变量,学习最优的核参数和字典,利用学习到的核参数和字典可以得到更好的编码结果,提高图像的分类和识别效果,并对图像质量问题具有较好的鲁棒性。本发明专利技术还提供一种图像分类及识别装置、终端及存储介质。

【技术实现步骤摘要】
基于数据依赖的核学习和字典学习的图像分类及识别方法
本专利技术涉及机器学习
,尤其涉及基于数据依赖的核学习和字典学习的图像分类及识别方法。
技术介绍
所谓字典学习和稀疏编码就是学习若干码本,利用这些码本对特征数据进行稀疏编码。以往,特征数据大多是欧式空间的数据,但是,近年来,随着机器学习应用的日益广泛和深入,许多特征数据都是非欧数据。这些非欧数据被赋予一定的拓扑结构和黎曼测度后,可以形成黎曼流形。黎曼流形虽然是度量空间,但不是线性空间,不能直接在黎曼流形上进行字典学习和稀疏编码。SPD流形数据线性组合对于组合系数的限制和对以SPD矩阵为变量的目标函数优化的复杂性,目前,黎曼流形上的字典学习和稀疏编码的常用框架是先把特征数据从黎曼流形变换到再生核希伯特空间(ReproducingKernelHilbertSpace,RKHS),然后在RKHS上进行字典学习和稀疏编码,将SPD流形数据映射到再生核希尔伯特空间上建模,而将SPD流形数据映射到RKHS上最关键的问题是如何保留SPD流形数据的几何结构,而核函数决定RKHS,因此核函数的选取是核方法里面的重要问题。在数学定义中,一个函数满足对称性、平方可积和正定,那么这个函数我们就称为核函数。根据Moore-Aronszajn定理:已知一个核函数k(x,y),则存在唯一的一个Hilbert空间H,使得H是一个再生核希尔伯特空间(ReproducingKernelHilbertSpace,RKHS),且k(x,y)是H的再生核,可以知道只要定义了一个核函数就是定义了一个RKHS以及RKHS的再生核。SPD流形上常用的核函数有Stein核函数、Jeff核函数、LE核函数和基于测地距离的核函数等,由于现有的SPD流形的核函数形式比较单一,在机器学习算法中使用的核函数基本是固定不变的,因此由核函数映射的RKHS也是固定不变的,这样的处理并不能很好地根据训练样本得到合适的RKHS,导致训练得到的算法模型并不是最佳的。
技术实现思路
本专利技术所要解决的技术问题在于,提供基于数据依赖的核学习和字典学习的图像分类及识别方法,把核学习应用到基于核方法的黎曼流形字典学习和稀疏编码方法上,同时优化核参数、字典学习和稀疏编码三个变量,学习最优的核参数和字典,利用学习到的核参数和字典可以得到更好的编码结果,提高图像的分类和识别效果,并对图像质量问题具有较好的鲁棒性。为解决上述问题,本专利技术实施例提供一种图像分类及识别方法,所述方法基于数据依赖的核学习和字典学习,包括:获取目标图像的样本数据集,并为每一样本数据集选择最优的核函数;其中,所述核函数为给定的数据依赖核函数,用于完整保留每一样本数据集中的几何信息;根据所述数据依赖核函数,分别确定并求解编码结果更新、字典更新及核参数更新的目标函数,得到被优化的稀疏编码、字典学习及核参数;利用被优化的字典学习和核参数,对目标图像的样本数据集的非线性特征进行稀疏编码,得到最佳的编码结果,并根据重构误差进行分类和识别;其中,所述非线性特征,为通过对目标图像的样本数据集先后进行特征提取和特性降维获得。优选地,所述数据依赖核函数,由于以下公式确定:令Ω为数据空间,Ω可为欧式空间或流形,令k1(x,y)是定义在Ω×Ω上的核函数,k2(x,y)是定义在Ω×Ω上的二元函数,M是对称半正定矩阵,是数据样本,对所有x∈Ω,表示x与数据样本Z通过k2(·,·)计算的向量,则数据依赖核函数可以定义为,对任意x,y∈Ω,优选地,字典学习阶段总的目标函数为:其中,第一项衡量重构误差,第二项λ||αi||1是稀疏正则项,λ是权重系数,||αi||1会使αi趋于稀疏,即αi只有很少数量的非零分量;上述的目标函数有两个需要优化的变量字典D和编码α,当同时优化两个变量时,上述问题是非凸的,但将其中一个变量固定,只优化另外一个变量,上述问题是凸的,可高效求解;字典学习使用的是迭代的交替优化策略,每一轮迭代可分成编码结果更新和字典更新两个步骤:(1)编码结果更新:在更新编码结果α时,固定字典D的值,对X进行稀疏编码,目标函数为:问题变成了l1正则化的优化问题,可高效求解;(2)字典更新:更新字典D时,固定编码α,目标函数为:然后求梯度令梯度为0即可得到字典D的更新值。优选地,对新来的测试点xnew,用学习到的字典D对xnew进行编码,目标函数为:令k(X,Y)=<φ(X),φ(Y)>,X,为定义在SPD流形上的核函数,φ:为由核函数k(·,·)产生的从SPD流形到再生核希尔伯特空间H的映射,将训练数据和初始化的字典映射到RKHS上:在RKHS上可以建立稀疏编码和字典学习的目标函数:其中Y=[y1,…yN]∈RK×N是编码向量组成的矩阵,λ是稀疏正则项的权重系数;展开重构误差项,可以得到:其中,K(Xi,D)=[k(Xi,D1)…k(Xi,DK)]∈R1×K是由待编码数据Xi和字典集D产生的核向量,是由字典集D产生的核矩阵,可以看到重构误差项是二次项,并且是凸的,目标函数的求解可以采用欧式空间对L1正则化二次项目标函数的求解算法;总的目标函数可以推导为:字典学习的常用做法是迭代的交替优化策略,每一轮迭代分为编码结果更新和字典更新两个步骤:(1)编码结果更新:在稀疏编码阶段,固定字典的值,问题变成最原始的稀疏编码问题,编码结果更新的目标函数为:(2)字典更新:在更新字典时,固定编码结果,问题变成了以字典为变量的函数优化问题,字典更新阶段的目标函数为:由于字典D也是SPD矩阵,对SPD矩阵的优化会让问题变得非常复杂和难以求解,因此使用表示理论(Representertheorem)将每个字典在RKHS表示为训练数据在RKHS上的线性组合:核矩阵可以改写为:则K(X,D)=K(X,X)V,K(D,D)=VTK(X,X)V,目标函数可以改写成:对字典D的更新转化成了对组合系数V的更新;令f(V)=-2tr(K(X,X)VY)+tr(K(X,X)VYYTVT)f(V)对V求导,可以得到:令导数为0,可以得到V的更新公式:V=YT(YYT)-1;对一个新来的测试数据点Xnew,关于Xnew的稀疏编码的目标函数为:优选地,给定训练数据学习字典和核参数采用的是交替优化的策略,在每次迭代分成三个步骤:稀疏编码结果更新、字典更新和核参数更新。优选地,更新每个变量时固定其他两个变量;(1)编码结果更新:在编码结果计算阶段,固定M和V,目标函数为:这是典型的Lasso优化问题,可以通过工具箱SPAMS或者CVX快速求解。(2)字典更新:...

【技术保护点】
1.一种图像分类及识别方法,其特征在于,所述方法基于数据依赖的核学习和字典学习,包括:/n获取目标图像的样本数据集,并为每一样本数据集选择最优的核函数;其中,所述核函数为给定的数据依赖核函数,用于完整保留每一样本数据集中的几何信息;/n根据所述数据依赖核函数,分别确定并求解编码结果更新、字典更新及核参数更新的目标函数,得到被优化的稀疏编码、字典学习及核参数;/n利用被优化的字典学习和核参数,对目标图像的样本数据集的非线性特征进行稀疏编码,得到最佳的编码结果,并根据重构误差进行分类和识别;其中,所述非线性特征,为通过对目标图像的样本数据集先后进行特征提取和特性降维获得。/n

【技术特征摘要】
1.一种图像分类及识别方法,其特征在于,所述方法基于数据依赖的核学习和字典学习,包括:
获取目标图像的样本数据集,并为每一样本数据集选择最优的核函数;其中,所述核函数为给定的数据依赖核函数,用于完整保留每一样本数据集中的几何信息;
根据所述数据依赖核函数,分别确定并求解编码结果更新、字典更新及核参数更新的目标函数,得到被优化的稀疏编码、字典学习及核参数;
利用被优化的字典学习和核参数,对目标图像的样本数据集的非线性特征进行稀疏编码,得到最佳的编码结果,并根据重构误差进行分类和识别;其中,所述非线性特征,为通过对目标图像的样本数据集先后进行特征提取和特性降维获得。


2.根据权利要求1所述的图像分类及识别方法,其特征在于,所述数据依赖核函数,由于以下公式确定:
令Ω为数据空间,Ω可为欧式空间或流形,令k1(x,y)是定义在Ω×Ω上的核函数,k2(x,y)是定义在Ω×Ω上的二元函数,M是对称半正定矩阵,是数据样本,对所有x∈Ω,表示x与数据样本Z通过k2(·,·)计算的向量,则数据依赖核函数可以定义为,对任意x,y∈Ω,





3.根据权利要求1所述的图像分类及识别方法,其特征在于,字典学习阶段总的目标函数为:



其中,第一项衡量重构误差,第二项λ||αi||1是稀疏正则项,λ是权重系数,||αi||1会使αi趋于稀疏,即αi只有很少数量的非零分量;上述的目标函数有两个需要优化的变量字典D和编码α,当同时优化两个变量时,上述问题是非凸的,但将其中一个变量固定,只优化另外一个变量,上述问题是凸的,可高效求解;
字典学习使用的是迭代的交替优化策略,每一轮迭代可分成编码结果更新和字典更新两个步骤:
(1)编码结果更新:
在更新编码结果α时,固定字典D的值,对X进行稀疏编码,目标函数为:



问题变成了l1正则化的优化问题,可高效求解;
(2)字典更新:
更新字典D时,固定编码α,目标函数为:



然后求梯度令梯度为0即可得到字典D的更新值。


4.根据权利要求3所述的图像分类及识别方法,其特征在于,对新来的测试点xnew,用学习到的字典D对xnew进行编码,目标函数为:



令为定义在SPD流形上的核函数,为由核函数k(·,·)产生的从SPD流形到再生核希尔伯特空间H的映射,将训练数据和初始化的字典映射到RKHS上:






在RKHS上可以建立稀疏编码和字典学习的目标函数:



其中Y=[y1,…yN]∈RK×N是编码向量组成的矩阵,λ是稀疏正则项的权重系数;展开重构误差项,可以得到:



其中,K(Xi,D)=[k(Xi,D1)…k(Xi,DK)]∈R1×K是由待编码数据Xi和字典集D产生的核向量,是由字典集D产生的核矩阵,可以看到重构误差项是二次项,并且是凸的,目标函数的求解可以采用欧式空间对L1正则化二次项目标函数的求解算法;
总的目标函数可以推导为:



字典学习的常用做法是迭代的交替优化策略,每一轮迭代分为编码结果更新和字典更新两个步骤:
(1)编码结果更新:
在稀疏编码阶段,固定字典的值,问题变成最原始的稀疏编码问题,编码结果更新的目标函数为:



(2)字典更新:
在更新字典时,固定编码结果,问题变成了以字典为变量的函数优化问题,字典更新阶段的目标函数为:



由于字典D也是SPD矩阵,对SPD矩阵的优化会让问题变得非常复杂和难以求解,因此使用表示理论(Representertheorem)将每个字典在RKHS表示为训练数据在RKHS上的线性组合:



核矩阵可以改写为:



则K(X,D)=K(X,X)V,K(D,D)=VTK(X,X)V,目标函数可以改写成:



对字典D的更新转化成了对组合系数V的更新;令
f(V)=-2tr(K(X,X)VY)+tr(K(X,X)VYYTVT)
f(V)对V求导,可以得到:



令导数为0,可以得到V的更新公式:
V=YT(YYT)-1;
对一个新来的测试数据点Xnew,关于Xnew的稀疏编码的目标函数为:





5.根据权利要求4所述的图像分类及识别方法,其特征在于,给定训练数据学习字典和核参数采用的是交替优化的策略,在每次迭代分成三个步骤:稀疏编码结果更新、字典更新和核参数更新。

【专利技术属性】
技术研发人员:余明辉詹增荣马争鸣杨鹏
申请(专利权)人:广州番禺职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1