当前位置: 首页 > 专利查询>李子豪专利>正文

一种落石梯度优化算法制造技术

技术编号:29401631 阅读:38 留言:0更新日期:2021-07-23 22:39
本发明专利技术公开了一种落石梯度优化算法,涉及梯度优化算法领域。分析此物理现象,落石梯度优化算法通过提炼模型要点并建立数学模型,结合数学理论推导,总结出一种变步长的梯度迭代算法,算法可以在理论情况下,达到初期迭代速度快,后期迭代精度高的效果。与同类型的GD算法相比,在GD取最优步长,迭代步数相同的情况下,迭代速度基本相同,并且最后收敛时的精度提高了近50%。

【技术实现步骤摘要】
一种落石梯度优化算法
本专利技术涉及梯度优化算法领域,具体涉及一种落石梯度优化算法。
技术介绍
梯度下降法在SebastianRuder.Anoverviewofgradientdescentoptimizationalgorithms[EB/OL]提出之后,衍生出了很多优秀的算法,梯度下降算法的概念如下:假设多元线性回归模型:其中,是因变量(预测值),n是特征的数量,xi是i第个自变量(特征值),θj是第j个模型参数(包括偏置θ0与特征参数(θ0,θ1,θ2,…,θn),θT是θj组合的转置向量,X是由(x1,x2,…,xn)组成的特征列向量。针对实例(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)),训练模型过程就是求θ0,θ1,θ2,…,θn直至模型对训练数据的拟合程度最佳的过程,每一次训练都会得到拟合值和真实值的差值,即损失值,这个值用于评估模型拟合程度,值越小表示拟合程度越好。在多元线性回归中,将均方误差(MeanSquareError,MSE)作为损失函数:其中,y(i),(i=1,2…,m)为样本真实值,为第i个实例特征列向量。使用梯度下降最小化,需要计算MSE(θ)关于每个参数的偏导数,也就是改变参数对于损失函数的改变量,即:若公式所得结果大于零,即MSE(θ)与θ成正比关系,欲最小化MSE(θ),在迭代过程中应该减小θ;反之,应该增大θ。因此,结合符号的正负,减小方向应为公式的相反方向,通过该方向结合步长来更新的每一次迭代的模型参数,找到损失函数的最小值点,即:其中,α为学习率,也称为寻优步长。通过公式求得下一次迭代的模型参数,将结果带入第一个公式求得下一次的预测值,这就是梯度下降算法的迭代过程。确定学习率和选择寻优方向是梯度下降算法研究的核心。经过近三年的相关研究,国内外已经取得大量研究成果,研究主要涵盖以下两个方面:(1)梯度下降算法的学习率相关研究提高了算法的收敛速度,解决了非凸目标函数陷入局部次优的问题;(2)基于动量和方差缩减的SGD相关研究解决了SGD的不稳定性。由于多元线性模型的损失函数是一个凸函数,不存在波峰与波谷,意味着只存在一个全局最小值,不存在局部最小值,虽然这可以解决算法容易陷入局部最小值的问题,但是机器学习中的模型种类繁多,目标函数复杂,使用梯度下降法的效果并不是很好。在目标函数非凸的情况下,Huo,Z.等Huo,Z.,Huang,H.Asynchronousmini-batchgradientdescentwithvariancereductionfornon-convexoptimization[J]首次基于非凸优化方差约简的异步小批量梯度下降算法的收敛速度进行了理论分析。异步随机梯度下降法(AsySGD)已广泛应用于深度学习优化问题,并证明了其在非凸优化问题中的收敛速度为结果表明,当问题为强凸时,采用变约简技术的异步SGD方法具有线性收敛速度。但是,对于非凸问题,近年来对该方法的收敛速度还没有进行分析。Huo,Z.等考虑了两种具有变异减少的小批量梯度下降法的异步并行实现:一种是分布式内存架构,另一种是共享内存架构,并且证明了对于非凸优化问题,两种方法均能以的速度收敛。在模型非线性的情况下,SimonS.Du等SimonS.Du,JasonD.Lee,HaochuanLi,etal.GradientDescentFindsGlobalMinimaofDeepNeuralNetworks[EB/OL]证明了训练深度神经网络模型能够得到全局最小值。研究表明了对于具有残差关联的超参数深度神经网络,梯度下降在多项式时间内达到零训练损失,这依赖于由神经网络结构所诱导出的Gram矩阵的特殊结构。这种结构证明Gram矩阵在整个训练过程中是稳定的,这种稳定性意味着梯度下降算法的全局最优性。研究进一步将分析扩展到残差深度卷积神经网络,并且得到了相似的收敛结果。此外,J.Flieg等J.Fliege,A.I.F.Vaz,L.N.Vicente(2019)Complexityofgradientdescentformultiob-jectiveoptimization[J].OptimizationMethodandSoftware,2019,34(5):949-959提出了一些一阶光滑多目标优化方法,并证明了这些方法在某种形式上具有一阶临界全局收敛性。分析了光滑无约束多目标优化问题的梯度下降收敛速度,并用于非凸、凸、强凸向量函数。这些全局速率与单目标优化中的梯度下降率相同,并且适用于最坏复杂度界限的情况。从前面算法的介绍可以得知:如果学习率太低,算法需要经过大量的迭代后才能收敛,这将会耗费大量的时间;反之,算法可能会陷入局部而无法搜索到全局最小值,甚至搜索结果会大于初始值,必然导致算法发散。另外,模型参数的每个更新都设置同一个学习率也不利于搜索全局最优。当前的解决思路之一通过制定学习率规划(LearningRateSchedules):算法开始的学习率较大,这有助于跳出局部最优,后来在每次迭代中逐渐减小,慢慢搜索全局最小值。但是更多的研究聚焦在学习率自适应性的问题上。王功鹏等王功鹏,段萌,牛常勇.基于卷积神经网络的随机梯度下降算法[J].计算机工程于设计,2018,39(2):441-445在解决CNN中学习率设置不恰当对SGD算法的影响,提出了一种学习率自适应SGD的优化算法,该算法随着迭代使得学习率呈现周期性的改变。研究结果表明,通过将这种自适应学习率优化算法与所选择的激活函数相结合,可以加快神经网络模型收敛速度,提升CNN的学习准确率。严晓明一种逻辑回归学习率自适应调整方法[J].福建师范大学学报(自然科学版),2019,35(3):24-28在使用梯度下降解决logistic回归模型分类问题时,提出一种自适应学习率的调整方法:在不引入新模型参数的同时,根据样本数据集分类准确率的变化对学习率进行更新。在梯度下降稍快时,增大学习率以加快收敛速率,反之则减小学习率以减少算法最优解附近的振荡。相比于使用固定学习率的神经网络,朱振国等基于权值变化的BP神经网络自适应学习率改进研究[J].计算机系统应用,2018,27(7):205-210提出基于权重变化的自适应学习率更新方法,改进了传统BP神经网络受人为因素限制的缺陷,证明了改进的神经网络具有更快的收敛速度和更高的误差精度。由于SGD的振荡性,因此目标参数会在目标函数的最小值附近游走,这样的情况下,动量(Momentum)在随机梯度下降距离中加入上一次迭代动量更新项,将它作为更新模型参数的下降距离,即:其中,γ(γ<1)为动量超参数,这意味着在更新模型参数累积了前面所有的动量,对于当前梯度方向与上一次梯度方向一致的参数,下降速度越来越快,反之则速度减慢,因此动量可以加快收敛速度并减少振荡。对于目标函数非光滑优化问题,程禹嘉等Heavy-Ball型动量方法的最优本文档来自技高网...

【技术保护点】
1.一种落石梯度优化算法,其特征在于,设山谷函数为f(x),求得山谷的最低点即求函数的最小值,包括以下过程:/n随机产生初始点x

【技术特征摘要】
1.一种落石梯度优化算法,其特征在于,设山谷函数为f(x),求得山谷的最低点即求函数的最小值,包括以下过程:
随机产生初始点x0,初始水平方向速度v0,重力加速度为g,开始做一次平抛运动,石头落在(x1,f(x1))处,从零点平抛的函数表达式为式(1)所示:



则从(x0,f(x0))点平抛的函数表达式为式(2)所示:



如果得到x0和x1的迭代表达式,就能通过一次次迭代求出谷底,即函数的最小值;平抛函数通过山谷函数上的(x1,f(x1)),将x=x1,y=f(x1)带入平抛函数表达式得到式(3)



f(x1)在x0处的处的泰勒展开式为式(4)



取泰勒展开式的前两...

【专利技术属性】
技术研发人员:李子豪
申请(专利权)人:李子豪
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1