当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法技术

技术编号:14854385 阅读:108 留言:0更新日期:2017-03-18 21:39
本发明专利技术公开了一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法,包括:初始化受限玻尔兹曼机参数;在给定样本的情形下,利用当前受限玻尔兹曼机的条件分布生成隐含节点的样本,将给定样本和隐含节点的样本连接生成子训练样本,通过子训练过程更新受限玻尔兹曼机直到收敛。本发明专利技术利用基于曲率信息的二阶优化算法可以提高训练算法对于病态问题的鲁棒性,并且加速迭代映射方法,解决了传统受限玻尔兹曼机训练过程中的下水平集病态问题。

【技术实现步骤摘要】

本专利技术涉及深度神经网络(DNN)的训练方法,尤其涉及一种受限玻尔兹曼机的训练方法。
技术介绍
深度学习在语音识别,图像识别,自然语言处理等传统人工智能
,以及计算技术与医疗,制造业和运输业的新兴交叉领域有着广阔的应用。目前常用的深度学习框架中,深度信念网络(DeepBeliefNetwork,DBN)作为一种生成模型,通过无监督预训练调整模型参数,可以为深度神经网络(DNN)的训练提供较好的初始参数。因此深度信念网络的训练在深度学习问题中有着重要的意义。深度信念网络是由一种叫受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)的模型构成的,研究深度信念网络的训练,可以从受限玻尔兹曼机的训练着手。受限玻尔兹曼机是深度神经网络的重要组成部分。目前广泛应用的RBM训练方法是对比散度(ContrastiveDivergence,CD)法,它是最大似然方法(MaximumLikelihood,ML)方法的一种近似方法。不论是对比散度法还是最大似然法都是基于梯度下降的训练算法,这类算法的优化效率强烈依赖于问题的下水平集。在遇到问题本身下水平集病态的时候,如Rosenbrock优化问题,这类算法的收敛速度就非常缓慢。事实上,甚至当下水平集的条件数适中的时候,这类优化算法的效率就几乎会随着下水平集条件数的增加而线性下降。并且这类算法没有对于问题规模的一个很好的度量,达到收敛所需要的迭代次数往往会随着问题规模的变大而大量的增加。信息几何理论为人们研究玻尔兹曼机训练过程的几何特性提供了完备统一的数学工具和分析方法。日本统计学家Amari等人在1992年针对一般玻尔兹曼机提出了基于信息几何理论的em算法(迭代映射算法),并证明其与EM算法在大多数情形下的等效性。
技术实现思路
受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)作为基础构件广泛应用于各种深度学习模型中。针对玻尔兹曼机训练中的病态问题,本专利技术提供了一种基于拟牛顿方法(Quasi-Newton)的训练方法,将以em算法为基础,利用并设计拟牛顿方法训练RBM,以解决传统RBM训练过程中的下水平集病态问题。本专利技术利用基于曲率信息的二阶优化算法可以提高训练算法对于病态问题的鲁棒性,并且加速迭代映射方法。为了解决上述技术问题,本专利技术提出了一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法,主要包括:初始化受限玻尔兹曼机参数,生成子训练样本,通过子训练过程更新受限玻尔兹曼机直到收敛;具体步骤如下:步骤一、初始化受限玻尔兹曼机参数ξ0;步骤二、在给定样本x的情形下,利用当前受限玻尔兹曼机的条件分布pi(h|x;ξi)生成隐含节点的样本h(i),将样本x和h(i)连接生成样本(x,h(i)),其中,i=0,1,2,…;步骤三、利用样本(x,h(i))通过下述的子训练阶段得到子训练中的受限玻尔兹曼机的参数α*;其中,子训练阶段内容如下:3-1)初始化子训练阶段受限玻尔兹曼机的参数α0;3-2)利用样本(x,h(i))进行吉布斯采样,求得3-3)利用Newton方法在当前参数αj的邻域内将目标方程按二阶泰勒公式展开:式(1)中,αj+1=αj+t,D(·)为目标函数,即为KL散度;为目标函数的梯度,H为Hessian矩阵;t是迭代变化量;对式(1)两边求导后,得到式(2):采用有限差方法,利用式(3),求得矩阵向量积Ht:式(3)中,η为学习率;根据上述得到的近似梯度和矩阵向量积Ht,采用迭代共轭梯度法来求解式(2),迭代求出t*,即最优的迭代变化量,在此过程中产生一个迭代序列:{tk本文档来自技高网
...
一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法

【技术保护点】
一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法,包括:初始化受限玻尔兹曼机参数,生成子训练样本,通过子训练过程更新受限玻尔兹曼机直到收敛;其特征在于:具体步骤如下:步骤一、初始化受限玻尔兹曼机参数ξ0;步骤二、在给定样本x的情形下,利用当前受限玻尔兹曼机的条件分布pi(h|x;ξi)生成隐含节点的样本h(i),将样本x和h(i)连接生成样本(x,h(i)),其中,i=0,1,2,…;步骤三、利用样本(x,h(i))通过下述的子训练阶段得到子训练中的受限玻尔兹曼机的参数α*;其中,子训练阶段内容如下:3‑1)初始化子训练阶段受限玻尔兹曼机的参数α0;3‑2)利用样本(x,h(i))进行吉布斯采样,求得3‑3)利用Newton方法在当前参数αj的邻域内将目标方程按二阶泰勒公式展开:D(αj+t)≈qαj+1(t)≡D(αj+1)+▿D(αj+1)Tt+12tTHt---(1)]]>式(1)中,αj+1=αj+t,D(·)为目标函数,即为KL散度;为目标函数的梯度,H为Hessian矩阵;t是迭代变化量;对式(1)两边求导后,得到式(2):Ht=▿D(αj+1)-▿D(αj)---(2)]]>采用有限差方法,利用式(3),求得矩阵向量积Ht:Ht=limηt→0▿D(αj+ηt)-▿D(αj)η---(3)]]>式(3)中,η为学习率;根据上述得到的近似梯度和矩阵向量积Ht,采用迭代共轭梯度法来求解式(2),迭代求出t*,即最优的迭代变化量,在此过程中产生一个迭代序列:{tk},k=1,2…;3‑4)判断残差是否达到指定精度,若达到,则进行3‑5),否则,返回步骤3‑3);3‑5)利用步骤3‑3)求得的t*更新子训练阶段受限玻尔兹曼机的参数:αj+1=αj+t*;3‑6)重复执行步骤3‑2)至3‑5)直到达到式(4)所示的收敛条件,子训练结束,得到的受限玻尔兹曼机的参数为α*;▿D(αj+1)<ρ---(4)]]>式(4)中,ρ为次优性阈值;步骤四、将参数α*替换整体训练中的参数ξi+1,即ξi+1=α*;判断是否满足式(5)所示的收敛条件,若满足,整体训练结束,若未满足,令i=i+1,重复执行步骤二和步骤三;||ξi+1‑ξi||<∈  (5)式(5)中,∈为设置的精度阈值;至此得到反映给定样本数据x内部特征的受限玻尔兹曼机。...

【技术特征摘要】
1.一种基于拟牛顿方法的受限玻尔兹曼机迭代映射训练方法,包括:初始化受限玻尔兹曼机参数,生成子训练样本,通过子训练过程更新受限玻尔兹曼机直到收敛;其特征在于:具体步骤如下:步骤一、初始化受限玻尔兹曼机参数ξ0;步骤二、在给定样本x的情形下,利用当前受限玻尔兹曼机的条件分布pi(h|x;ξi)生成隐含节点的样本h(i),将样本x和h(i)连接生成样本(x,h(i)),其中,i=0,1,2,…;步骤三、利用样本(x,h(i))通过下述的子训练阶段得到子训练中的受限玻尔兹曼机的参数α*;其中,子训练阶段内容如下:3-1)初始化子训练阶段受限玻尔兹曼机的参数α0;3-2)利用样本(x,h(i))进行吉布斯采样,求得3-3)利用Newton方法在当前参数αj的邻域内将目标方程按二阶泰勒公式展开:D(αj+t)≈qαj+1(t...

【专利技术属性】
技术研发人员:侯越先糜帅
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1