神经网络训练方法、数据处理方法及相关设备技术

技术编号：45000894 阅读：0 留言：0更新日期：2025-04-15 17:14

本公开提供了一种神经网络训练、数据处理方法及相关设备，所述神经网络训练方法包括：从预设的多个反向传播策略中，确定目标反向传播策略；对于所述神经网络训练中的任一次迭代，根据所述目标反向传播策略，确定本次迭代中梯度更新的目标反向传播路径，所述目标反向传播路径包括所有反向传播路径中的部分传播路径；通过前向传播及基于所述目标反向传播路径的反向传播，对所述神经网络的参数进行梯度更新，得到本次迭代的神经网络。根据本公开的实施例能够减少神经网络训练过程中的缓存数据量及训练计算量。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，特别涉及一种神经网络训练方法、数据处理方法及相关设备。

技术介绍

1、相关技术中，训练神经网络时，通常会采用反向传播(back propagation，bp)的方式进行梯度更新。然而，反向传播需要保存神经网络的全部中间状态变量(例如每层的激活)，会导致缓存数据量过高。尤其是训练循环神经网络、脉冲神经网络等处理序列数据的神经网络时，会沿时间进行反向传播，这就需要保存更多的中间状态变量，使得缓存数据量过高的问题更加突出。

技术实现思路

1、本公开提供一种神经网络训练方法、数据处理方法及相关设备。

2、第一方面，本公开提供了一种神经网络训练方法，该神经网络训练方法包括：从预设的多个反向传播策略中，确定目标反向传播策略；对于所述神经网络训练中的任一次迭代，根据所述目标反向传播策略，确定本次迭代中梯度更新的目标反向传播路径，所述目标反向传播路径包括所有反向传播路径中的部分传播路径；通过前向传播及基于所述目标反向传播路径的反向传播，对所述神经网络的参数进行梯度更新，得到本次迭代的神经网络。

3、第二方面，本公开提供了一种数据处理方法，该数据处理方法包括：获取待处理数据；通过神经网络对所述待处理数据进行处理，得到数据处理结果，其中，所述神经网络是通过上述神经网络训练方法训练得到的，所述待处理数据包括语音、文本、视频中的任意一种。

4、第三方面，本公开提供了一种神经网络训练装置，该神经网络训练装置包括：策略确定模块，用于从预设的多个反向传播策

5、第四方面，本公开提供了一种数据处理装置，该数据处理装置包括：数据获取模块，用于获取待处理数据；数据处理模块，用于通过神经网络对所述待处理数据进行处理，得到数据处理结果，其中，所述神经网络是通过上述神经网络训练方法训练得到的，所述待处理数据包括语音、文本、视频中的任意一种。

6、第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的神经网络训练方法或数据处理方法。

7、第六方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述的神经网络训练方法或数据处理方法。

8、根据本公开的实施例，训练神经网络时，首先从预设的多个反向传播策略中，确定目标反向传播策略，然后对于神经网络训练中的任一次迭代，根据目标反向传播策略，确定本次迭代中梯度更新的目标反向传播路径，目标反向传播路径包括所有反向传播路径中的部分传播路径，然后通过前向传播及基于目标反向传播路径的反向传播，对神经网络的参数进行梯度更新，得到本次迭代的神经网络。由于目标反向传播路径包括所有反向传播路径中的部分传播路径，通过前向传播及基于目标反向传播路径的反向传播，对神经网络的参数进行梯度更新时，只需存储和计算参与反向传播的网络层的状态变量(即包括在反向传播路径中的网络层的状态变量)，而不用存储和计算其他状态变量，从而不仅能够大幅减少神经网络训练过程中的缓存数据量，而且能够减少训练计算量。

9、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种神经网络训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络包括多个网络层，所述神经网络训练中的每次迭代包括多个处理状态，所述目标反向传播路径包括目标处理状态下的目标网络层，所述目标网络层为所述多个网络层中的至少一个，所述目标处理状态为所述多个处理状态中的至少一个。

3.根据权利要求2所述的方法，其特征在于，所述通过前向传播及基于所述目标反向传播路径的反向传播，对所述神经网络的参数进行梯度更新，得到本次迭代的神经网络，包括：

4.根据权利要求2所述的方法，其特征在于，所述目标反向传播策略为动态随机路径策略，所述动态随机路径策略是指每次迭代动态随机生成路径的策略，

5.根据权利要求4所述的方法，其特征在于，所述从处理状态的连接图中，确定第一随机路径，包括：

6.根据权利要求2所述的方法，其特征在于，所述目标反向传播策略为动态随机路径策略，所述根据所述目标反向传播策略，确定本次迭代中梯度更新的目标反向传播路径，包括：

7.根据权利要求2所述的方法，其特征在于，所述目标反向传

8.根据权利要求7所述的方法，其特征在于，所述根据预设迭代次数内的网络损失的方差及预设系数，确定与本次迭代对应的第二比例，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据预设迭代次数内的网络损失的方差及预设系数，确定与本次迭代对应的第二比例，包括：

10.根据权利要求7所述的方法，其特征在于，所述根据预设迭代次数内的网络损失的方差及预设系数，确定与本次迭代对应的第二比例，包括：

11.根据权利要求2所述的方法，其特征在于，所述目标反向传播策略为预设形状路径策略，所述预设形状路径策略是指根据预设形状确定路径的策略，

12.根据权利要求2所述的方法，其特征在于，所述目标反向传播策略为固定随机路径策略，所述固定随机路径策略是指随机生成路径且每次迭代路径固定的策略，

13.一种数据处理方法，其特征在于，包括：

14.一种神经网络训练装置，其特征在于，所述神经网络包括多个网络层，所述神经网络训练中的每次迭代包括多个处理状态，所述装置包括：

15.一种数据处理装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-12中任一项所述的神经网络训练方法，或者，实现如权利要求13所述的数据处理方法。

...

【技术特征摘要】

1.一种神经网络训练方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述从处理状态的连接图中，确定第一随机路径，包括：

7.根据权利要求2所述的方法，其特征在于，所述目标反向传播策略为动态随机路径策略，所述根据所述目标反向传播策略，确定本次迭代中梯度更新的目标反向传播路径，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据预设迭代次数...

【专利技术属性】
技术研发人员：刘发强，祝夭龙，
申请(专利权)人：北京灵汐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人