一种加速训练循环神经网络的混合激活函数确定方法技术

技术编号：32852028 阅读：11 留言：0更新日期：2022-03-30 19:09

本发明专利技术公开了一种加速训练循环神经网络的混合激活函数确定方法，包括步骤：初始化循环神经网络的权值参数W，以及混合激活函数的参数；将数据集输入循环神经网络，计算误差分量，更新权值参数，计算代价函数下降幅度；若代价函数下降幅度J

全部详细技术资料下载

【技术实现步骤摘要】
一种加速训练循环神经网络的混合激活函数确定方法

[0001]本专利技术涉及人工智能
，尤其涉及一种加速训练循环神经网络的混合激活函数确定方法。

技术介绍

[0002]循环神经网络在时间维度上存在权值连接，能够反映序列数据在时间维度的相关性，因此被广泛用于时间序列相关的数据处理任务。然而，在误差反向传播过程中，不同于非循环神经网络仅在不同层数之间传递误差，循环神经网络仍需在时间维度传递误差，且其在时间维度的长度往往远大于其层数。在训练神经网络模型时，过大的时间维度长度将导致误差在传播过程中的不断损失，进而引起梯度消失问题。梯度消失问题是在误差反向传播过程中由于累积的乘法运算而导致的误差逐渐为0，进而权值矩阵梯度为0的问题。梯度消失问题将会导致循环神经网络训练困难且缓慢，提高训练成本，甚至导致训练失败。在误差反向传播过程中，激活函数对梯度消失问题起到决定性作用。目前循环神经网络采用的激活函数主要为sigmoid函数和tanh函数。其他激活函数如ReLU等，因其导数过大，在长时间序列的循环神经网络中易引起梯度爆炸问题。因此，有必要提出针对循环神经网络在时间维度的梯度消失问题的解决方法。
[0003]经对现有技术文献检索发现，中国专利申请公布号为“CN 109857867A”，专利名称为《一种基于循环神经网络的激活函数参数化改进方法》，该专利自述为：“本专利技术在密集连接的双向长短期记忆网络的基础上，通过参数化激活函数模块，使得S型激活函数的非饱和区域得到扩展，同时避免函数的导数过小，防止梯度消失现象的发生。”...

【技术保护点】

【技术特征摘要】
1.一种加速训练循环神经网络的混合激活函数确定方法，其特征在于，包括以下步骤：S1：初始化循环神经网络的权值参数W，以及混合激活函数的参数α、β、λ；S2：将数据集输入循环神经网络，计算误差分量，更新权值参数W，计算代价函数下降幅度J
d
：其中，J0表示在指定迭代过程中，代价函数的初始值；J
k
为在指定迭代过程中第k次迭代的代价函数值；S3：若代价函数下降幅度J
d
满足预设条件，则更新激活函数参数α、β、λ；S4：返回S2，迭代训练循环神经网络，直至代价函数J小于预设数值χ或达到预定迭代训练次数Iter。2.根据权利要求1所述的加速训练循环神经网络的混合激活函数确定方法，其特征在于，所述权值参数W为循环神经网络节点之间可训练的参数。3.根据权利要求2所述的加速训练循环神经网络的混合激活函数确定方法，其特征在于，所述步骤S1中初始化过程为：于，所述步骤S1中初始化过程为：...

【专利技术属性】
技术研发人员：张宁，沈水龙，郑钤，闫涛，
申请(专利权)人：汕头大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人