神经网络训练方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：27409208 阅读：12 留言：0更新日期：2021-02-21 14:23

本发明专利技术公开了一种神经网络训练方法，包括以下步骤：随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；对所述目标随机参数进行量化处理，以获得量化参数；基于所述目标随机参数以及所述量化参数确定量化损失值；基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络。本发明专利技术还公开了一种神经网络训练装置、设备及计算机可读存储介质。本发明专利技术过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，并且，通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。型边缘设备中。型边缘设备中。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络训练方法、装置、设备及计算机可读存储介质

[0001]本专利技术涉及神经网络领域，尤其涉及一种神经网络训练方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能的发展，深度学习在图像检测以及语音识别等领域体现出巨大的优势。神经网络是深度学习的一种重要算法。但是，由于神经网络中有存在大量冗余参数，会导致神经网络模型的计算量巨大，因此在一些应用场景例如在嵌入式设备等小型边缘设备中无法直接使用。
[0003]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种神经网络训练方法、装置、设备及计算机可读存储介质，旨在解决现有神经网络模型的计算量巨大的技术问题。
[0005]为实现上述目的，本专利技术提供一种神经网络训练方法，所述神经网络训练方法包括以下步骤：
[0006]随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；
[0007]对所述目标随机参数进行量化处理，以获得量化参数；
[0008]基于所述目标随机参数以及所述量化参数确定量化损失值；
[0009]基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。
[0010]进一步地，所述基于所述目标随机参数以及所述量化参数确定量化损失值的步骤包括：
[0011]基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值；r/>[0012]基于所述第一损失值以及所述第二损失值，确定所述量化损失值。
[0013]进一步地，失值的步骤包括：
[0014]基于所述输入数据以及所述目标随机参数，确定第一损失值；
[0015]基于所述输入数据以及所述量化参数，确定第二损失值。
[0016]进一步地，所述基于所述第一损失值以及所述第二损失值，确定所述量化损失值的步骤包括：
[0017]基于所述第一损失值、所述第二损失值以及预设合页损失函数，确定所述量化损失值。
[0018]进一步地，所述对所述目标随机参数进行量化处理，以获得量化参数的步骤包括：
[0019]基于所述目标随机参数的符号对各个目标随机参数进行二值量化处理，以获得所述量化参数。
[0020]进一步地，所述基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络的步骤包括：
[0021]获取初始化后的待训练神经网络对应的损失函数值；
[0022]基于所述量化损失值以及所述损失函数值，确定目标神经网络。
[0023]进一步地，所述基于所述量化损失值以及所述损失函数值，确定目标神经网络的步骤包括：
[0024]基于所述量化损失值以及所述损失函数值，确定总损失函数值；
[0025]基于所述总损失函数值更新初始化后的待训练神经网络，以获得更新后的神经网络，并确定所述总损失函数值是否小于预设损失值；
[0026]若所述总损失函数值小于预设损失值，则将更新后的神经网络作为所述目标神经网络；
[0027]若所述总损失函数值大于或等于预设损失值，则将更新后的神经网络作为初始化后的待训练神经网络，并返回执行基于输入数据，获取初始化后的待训练神经网络的目标随机参数的步骤。
[0028]此外，为实现上述目的，本专利技术还提供一种神经网络训练装置，所述神经网络训练装置包括：
[0029]初始化模块，用于随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；
[0030]量化模块，用于对所述目标随机参数进行量化处理，以获得量化参数；
[0031]第一确定模块，用于基于所述目标随机参数以及所述量化参数确定量化损失值；
[0032]第二确定模块，用于基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。
[0033]此外，为实现上述目的，本专利技术还提供一种神经网络训练设备，所述神经网络训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的神经网络训练程序，所述神经网络训练程序被所述处理器执行时实现前述的神经网络训练方法的步骤。
[0034]此外，为实现上述目的，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有神经网络训练程序，所述神经网络训练程序被处理器执行时实现前述的神经网络训练方法的步骤。
[0035]本专利技术通过随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；接着对所述目标随机参数进行量化处理，以获得量化参数；而后基于所述目标随机参数以及所述量化参数确定量化损失值；然后基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络，通过量化参数对神经网络进行训练，以使得训练得到的目标神经网络具有较强的模型可解释性，并且，通过选择目标随机参数，避免对神经网络中的大量冗余参数进行处理，降低模型训练过程中的网络计算量，以便于将神经网络小型化而部署于小型边缘设备中。
附图说明
[0036]图1是本专利技术实施例方案涉及的硬件运行环境中神经网络训练设备的结构示意
图；
[0037]图2为本专利技术神经网络训练方法第一实施例的流程示意图；
[0038]图3为本专利技术神经网络训练装置一实施例的功能模块示意图。
[0039]本专利技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0040]应当理解，此处所描述的具体实施例仅仅用以解释本专利技术，并不用于限定本专利技术。
[0041]如图1所示，图1是本专利技术实施例方案涉及的硬件运行环境中神经网络训练设备的结构示意图。
[0042]本专利技术实施例神经网络训练设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
[0043]如图1所示，该神经网络训练设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法，其特征在于，所述神经网络训练方法包括以下步骤：随机初始化待训练神经网络，并基于输入数据，获取初始化后的待训练神经网络的目标随机参数；对所述目标随机参数进行量化处理，以获得量化参数；基于所述目标随机参数以及所述量化参数确定量化损失值；基于所述量化损失值以及所述初始化后的待训练神经网络，确定目标神经网络。2.如权利要求1所述的神经网络训练方法，其特征在于，所述基于所述目标随机参数以及所述量化参数确定量化损失值的步骤包括：基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值；基于所述第一损失值以及所述第二损失值，确定所述量化损失值。3.如权利要求2所述的神经网络训练方法，其特征在于，所述基于所述目标随机参数确定第一损失值，并基于所述量化参数确定第二损失值的步骤包括：基于所述输入数据以及所述目标随机参数，确定第一损失值；基于所述输入数据以及所述量化参数，确定第二损失值。4.如权利要求2所述的神经网络训练方法，其特征在于，所述基于所述第一损失值以及所述第二损失值，确定所述量化损失值的步骤包括：基于所述第一损失值、所述第二损失值以及预设合页损失函数，确定所述量化损失值。5.如权利要求1所述的神经网络训练方法，其特征在于，所述对所述目标随机参数进行量化处理，以获得量化参数的步骤包括：基于所述目标随机参数的符号对各个目标随机参数进行二值量化处理，以获得所述量化参数。6.如权利要求1至5任一项所述的神经网络训练方法，其特征在于，所述基于所述量化损失值以及初始化后的待训练神经网络，确定目标神经网络的步骤包括：获取初始化后的待训练神经网络对应的损失函数值；基于所述量化...

【专利技术属性】
技术研发人员：张天豫，范力欣，吴锦和，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人