当前位置: 首页 > 专利查询>汕头大学专利>正文

一种加速训练循环神经网络的混合激活函数确定方法技术

技术编号:32852028 阅读:11 留言:0更新日期:2022-03-30 19:09
本发明专利技术公开了一种加速训练循环神经网络的混合激活函数确定方法,包括步骤:初始化循环神经网络的权值参数W,以及混合激活函数的参数;将数据集输入循环神经网络,计算误差分量,更新权值参数,计算代价函数下降幅度;若代价函数下降幅度J

【技术实现步骤摘要】
一种加速训练循环神经网络的混合激活函数确定方法


[0001]本专利技术涉及人工智能
,尤其涉及一种加速训练循环神经网络的混合激活函数确定方法。

技术介绍

[0002]循环神经网络在时间维度上存在权值连接,能够反映序列数据在时间维度的相关性,因此被广泛用于时间序列相关的数据处理任务。然而,在误差反向传播过程中,不同于非循环神经网络仅在不同层数之间传递误差,循环神经网络仍需在时间维度传递误差,且其在时间维度的长度往往远大于其层数。在训练神经网络模型时,过大的时间维度长度将导致误差在传播过程中的不断损失,进而引起梯度消失问题。梯度消失问题是在误差反向传播过程中由于累积的乘法运算而导致的误差逐渐为0,进而权值矩阵梯度为0的问题。梯度消失问题将会导致循环神经网络训练困难且缓慢,提高训练成本,甚至导致训练失败。在误差反向传播过程中,激活函数对梯度消失问题起到决定性作用。目前循环神经网络采用的激活函数主要为sigmoid函数和tanh函数。其他激活函数如ReLU等,因其导数过大,在长时间序列的循环神经网络中易引起梯度爆炸问题。因此,有必要提出针对循环神经网络在时间维度的梯度消失问题的解决方法。
[0003]经对现有技术文献检索发现,中国专利申请公布号为“CN 109857867A”,专利名称为《一种基于循环神经网络的激活函数参数化改进方法》,该专利自述为:“本专利技术在密集连接的双向长短期记忆网络的基础上,通过参数化激活函数模块,使得S型激活函数的非饱和区域得到扩展,同时避免函数的导数过小,防止梯度消失现象的发生。”该方法所提出的参数化激活函数模块,仅仅扩大了激活函数的非饱和区。在无限的值域内,饱和区的范围仍然占据主导,因此并不能彻底消除梯度消失问题。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种加速训练循环神经网络的混合激活函数确定方法。可针对现有激活函数存在的梯度消失问题,提出了混合激活函数,彻底消除激活函数的饱和区,确保激活函数在误差反向传播过程中其导数不再为0,方法简单,易于推广。
[0005]为了解决上述技术问题,本专利技术提供了一种加速训练循环神经网络的混合激活函数确定方法,所述方法通过下列步骤实现:
[0006]第一步、初始化循环神经网络的权值参数W,以及混合激活函数的参数α、β、λ;
[0007]优选地,所述权值参数W是指:泛指循环神经网络节点之间可训练的参数;
[0008]优选地,所述初始化是指:为权值参数W和激活函数参数α、β、λ指定初始值,满足公式(1):
[0009][0010]其中,U为均匀分布,N
l
为LSTM模型第l层数据层的节点数量,L为循环神经网络的层数。
[0011]优选地,所述混合激活函数是指:由双曲正切函数和线性单元混合组成的激活函数,满足公式(2):
[0012][0013]其中,f(x)为混合激活函数,f'(x)为混合激活函数的导数,tanh(x)为双曲正切函数,α、β、λ为混合激活函数系数;
[0014]第二步、将数据集输入循环神经网络,计算误差分量,更新权值参数W,计算代价函数下降幅度J
d

[0015]优选地,所述数据集是指:由训练和测试循环神经网络的数据样本组成的数据集合;
[0016]优选地,所述误差分量是指:循环神经网络的代价函数误差值在各层和各时间维度的分量;
[0017]优选地,所述更新权值参数W满足公式(3):
[0018][0019]其中,J为代价函数;
[0020]优选地,所述代价函数下降幅度是指J
d
:在指定迭代过程中,代价函数的变化比例,负值代表代价函数下降,正值代表代价函数在上升,满足公式(4):
[0021][0022]其中,J0表示在指定迭代过程中,代价函数的初始值;J
k
为在指定迭代过程中第k次迭代的代价函数值;
[0023]更优选地,所述代价函数是指:衡量循环神经网络的输出数据与数据样本的标签数据之间差距的函数。
[0024]第三步、若代价函数下降幅度J
d
满足预设条件,则更新激活函数参数α、β、λ;
[0025]优选地,所述预设条件是指:预设的代价函数下降幅度阈值bound,默认为5%,若满足阈值条件,则更新激活函数参数。
[0026]优选地,所述更新激活函数参数满足公式(5):
[0027][0028]第四步、返回第二步,迭代训练循环神经网络,直至代价函数J小于预设数值χ或达到预定迭代训练次数Iter。
[0029]本专利技术具有如下有益效果:本专利技术结合双曲正切函数和线性函数,提出了混合激活函数,彻底消除激活函数的饱和区,确保激活函数在误差反向传播过程中其导数不再为0。本方法简单、实用,便于推广,具有很大的应用价值。
附图说明
[0030]图1为本专利技术一实施例的混合激活函数确定方法流程图;
[0031]图2为本专利技术一实施例的混合激活函数提升LSTM循环神经网络的效果图。
具体实施方式
[0032]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。
[0033]某数据集含有13个数据样本,样本数据的变化范围为0.01~1。本实施例采用了LSTM循环神经网络,共含输入层、LSTM隐藏层、全连接隐藏层和输出层四层结构,其中输入层1各节点,LSTM层5个节点,全连接层5个节点,输出层1个节点。
[0034]如图1-图2所示,本实施例提供一种加速训练循环神经网络的混合激活函数确定方法,所述方法通过下列步骤实现:
[0035]步骤一、初始化循环神经网络的权值参数W,以及混合激活函数的参数α、β、λ;
[0036]本实施例中,所述权值参数W是指:泛指循环神经网络节点之间可训练的参数;
[0037]本实施例中,所述初始化是指:为权值参数W和激活函数参数α、β、λ指定初始值,满足公式(1):
[0038][0039]其中,U为均匀分布,W
LSTM层
代表输入层与LSTM隐藏层之间的权值参数,W
全连接隐藏层
代表LSTM隐藏层与全连接隐藏层之间的权值参数,W
输出层
代表全连接隐藏层与输出层之间的权值参数。
[0040]优选地,所述混合激活函数是指:由双曲正切函数和线性单元混合组成的激活函数,满足公式(2):
[0041][0042]步骤二、将数据集输入循环神经网络,计算误差分量,更新权值参数W,计算代价函数下降幅度J
d

[0043]本实施例中,所述数据集是指:由训练和测试循环神经网络的数据样本组成的数据集合;
[0044]本实施例中,所述误差分量是指:循环神经网络的代价函数误差值在各层和各时间维度的分量;
[0045]本实施例中,所述更新权值参数W满足公式(3):
[0046]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种加速训练循环神经网络的混合激活函数确定方法,其特征在于,包括以下步骤:S1:初始化循环神经网络的权值参数W,以及混合激活函数的参数α、β、λ;S2:将数据集输入循环神经网络,计算误差分量,更新权值参数W,计算代价函数下降幅度J
d
:其中,J0表示在指定迭代过程中,代价函数的初始值;J
k
为在指定迭代过程中第k次迭代的代价函数值;S3:若代价函数下降幅度J
d
满足预设条件,则更新激活函数参数α、β、λ;S4:返回S2,迭代训练循环神经网络,直至代价函数J小于预设数值χ或达到预定迭代训练次数Iter。2.根据权利要求1所述的加速训练循环神经网络的混合激活函数确定方法,其特征在于,所述权值参数W为循环神经网络节点之间可训练的参数。3.根据权利要求2所述的加速训练循环神经网络的混合激活函数确定方法,其特征在于,所述步骤S1中初始化过程为:于,所述步骤S1中初始化过程为:...

【专利技术属性】
技术研发人员:张宁沈水龙郑钤闫涛
申请(专利权)人:汕头大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1