一种神经网络改进循环变化学习率的方法技术

技术编号：31497342 阅读：12 留言：0更新日期：2021-12-18 12:41

本发明专利技术属于深度学习领域，具体为一种神经网络改进循环变化学习率的方法，包括以下步骤：搭建Tensorflow或者Pytorch框架，建立BSGD梯度下降框架，并且设定权值和阈值，随后模型估算神经网络允许的最小学习率和最大学习率，设定阈值最小初始学习率,随后不断进行batch操作，然后在每个batch之后都进行模型网络的更新，然后同比增加学习率，统计每个batch操作计算出的损失值，从中计算出batch操作中的最优学习率，经过一定量的batch操作训练后，使用热重启的方式将学习率初始化为某个值，然后逐渐减少，最后重复迭代至损失值趋于稳定，本发明专利技术用热重启方式来替代学习率退火制度，这种重启可以随时进行，这样加快了学习的所需时间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络改进循环变化学习率的方法

[0001]本专利技术属于深度学习领域，具体为一种神经网络改进循环变化学习率的方法。

技术介绍

[0002]神经网络也称作连接模型，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的
[0003]目前深度学习使用的都是非常简单的一阶收敛算法，梯度下降法，不管有多少自适应的优化算法，本质上都是对梯度下降法的各种变形，所以初始学习率对深层网络的收敛起着决定性的作用。
[0004]如果学习率太小，会导致网络loss下降非常慢，如果学习率太大，那么参数更新的幅度就非常大，就会导致网络收敛到局部最优点，或者loss直接开始增加。

技术实现思路

[0005]本专利技术的目的在于提供一种神经网络改进循环变化学习率的方法，该系统和方法在进行更新学习率的时候，在每次重启时，学习率初始化为某个值，然后逐渐减少，优化学习率不是从头开始，而是从模型上一个步骤收敛的参数开始的，这样加快了学习的所需时间，这种积极的退火机制使模型能快速收敛到一个新的且更好的方案。
[0006]为实现上述目的，本专利技术提供如下技术方案：一种神经网络改进循环变化学习率的方法，具体按照如下步骤实施：
[0007]S1:搭建Tensorflow或者Pytorch框架，进行神经网络框架的搭建，其中神经网络包括输入层、隐藏层、全链接层和输出层，神经网络模型与回归模型为构造线性模...

【技术保护点】

【技术特征摘要】
1.一种神经网络改进循环变化学习率的方法，其特征在于，具体按照如下步骤实施：S1: 搭建Tensorflow或者Pytorch框架，进行神经网络框架的搭建，其中神经网络包括输入层、隐藏层、全链接层和输出层；S2: 建立BSGD梯度下降框架，并且设定权值和阈值，其中BSGD梯度下降的公式为：，其中为学习率，随后模型估算神经网络允许的最小学习率和最大学习率；S3:设定阈值最小初始学习率,随后不断进行batch操作，然后在每个batch之后都进行模型网络的更新，然后同比增加学习率；S4:统计每个batch操作计算出的损失值，随后进行描绘学习的变化曲线和损失值变化曲线，从中计算出batch操作中的最优学习率；S5:经过一定量的batch操作训练后，使用热重启的方式将学习率初始化为某个值，然后逐渐减少，此学习率设定为S4步骤中的最优学习率；S6:重复迭代至损失值趋于稳定。2.如权利要求1所述的一种神经网络改进循环变化学习率的方法，其特征在于：针对步骤S1：所述全链接层和所述输出层之间的损失函数为SRelu损失函数，其中SRelu的非线性公式为：，其中为SRelu对训练模型进行参数化得到的输出平均值，表示x对应的概率值，表示正区间数值，表示负区间数值。3.如权利要求1所述的一种神经网络改进循环变化学习率的方法，其特征在于：针对步骤S2：其中BSGD梯度下降算法包含BGD算法和SGD算法，在进行梯度下降时随机采样N个样本进行迭代训练，然后进行重复训练，其中迭代公式为：，其中为所述步骤S1中的隐藏层阈值。4.如权利要求3所述的一种神经网络改进循环...

【专利技术属性】
技术研发人员：董琴，王昕，黄乾峰，陈瑾，姜碧怡，范浩楠，史鸣凤，
申请(专利权)人：云火科技盐城有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人