用于正则化神经网络的系统和方法技术方案

技术编号：21772944 阅读：21 留言：0更新日期：2019-08-03 21:54

本公开通常涉及机器学习。更具体地，本公开涉及通过在神经网络的训练期间解相关神经网络的神经元或其他参数来正则化神经网络的系统和方法，从而促进这些参数相互创新。

System and Method for Regularized Neural Networks

全部详细技术资料下载

【技术实现步骤摘要】
用于正则化神经网络的系统和方法相关申请本申请要求美国临时专利申请号62/660,617的优先权，该临时专利申请通过引用整体并入本文。
本公开通常涉及机器学习。更具体地，本公开涉及通过在神经网络的训练期间解相关(decorrelate)神经网络的神经元和/或其他组件或参数来正则化神经网络的系统和方法。
技术介绍
神经网络在大数据预测方面已经提供了巨大突破，以及改善了机器学习的预测准确度和能力。然而，由于神经网络为了实现这样的性能而试图学习的非常大量的参数，因此它们可能显著地过度拟合训练数据，潜在地引起对训练期间未观察到的数据的不良泛化。神经网络还遭受训练中潜在的不稳定性和不可再现性。对于不可再现性，例如，有可能在相同的数据上两次独立训练相同的网络结构仍然可以得到两个非常不同的神经网络，并且有可能对训练期间未观察到的数据产生不同的预测。这可以发生在不保证以相同的顺序访问训练示例的高度并行化和分布式的训练系统中。然后，如果网络然后控制哪些后续训练示例被看见，那么该网络可以随着协变量移位非常不同地演进。这些偏差可以从训练示例的不同随机初始化、并行化和/或顺序产生。已经示出了神经网络中存在大量冗余。冗余可能导致上述过度拟合和其他问题。具体地，网络可以被很好地过度参数化，其中一些参数可以由其他参数预测。因为学习(遗憾)惩罚支付给比所需更多的参数，并且收敛速度和泛化能力减慢，所以这特别导致具有有限的训练示例的过度拟合。因此，当在相同的数据上重新训练但具有训练示例的潜在的不同初始化、并行化和顺序时，神经网络遭受过度拟合、对看不见的数据的潜在的不良泛化、不稳定性和不可再现性...

【技术保护点】
1.一种用于训练神经网络的计算机实施的方法，所述方法包括：由一个或多个计算设备获得描述神经网络的数据，所述神经网络包括多层神经元；以及由一个或多个计算设备通过神经网络反向传播损失函数以训练神经网络，其中所述损失函数描述所述神经网络相对于一组训练示例的性能，并且其中由一个或多个计算设备通过神经网络反向传播损失函数包括，对于所述神经网络的多个层中的一个或多个层中的每个层：由所述一个或多个计算设备确定所述损失函数相对于层中包括的神经元的梯度，其中，至少对于所述层，所述损失函数包括创新损失项，所述创新损失项为所述层中包括的一个或多个神经元中的每一个神经元提供基于所述层中的一个或多个其他神经元的能力的损失值，以预测这样的神经元的值；以及由所述一个或多个计算设备至少部分地基于包括所述创新损失项的损失函数的梯度来修改所述层中包括的神经元以解相关所述层中包括的神经元。

【技术特征摘要】
2018.04.20 US 62/660,6171.一种用于训练神经网络的计算机实施的方法，所述方法包括：由一个或多个计算设备获得描述神经网络的数据，所述神经网络包括多层神经元；以及由一个或多个计算设备通过神经网络反向传播损失函数以训练神经网络，其中所述损失函数描述所述神经网络相对于一组训练示例的性能，并且其中由一个或多个计算设备通过神经网络反向传播损失函数包括，对于所述神经网络的多个层中的一个或多个层中的每个层：由所述一个或多个计算设备确定所述损失函数相对于层中包括的神经元的梯度，其中，至少对于所述层，所述损失函数包括创新损失项，所述创新损失项为所述层中包括的一个或多个神经元中的每一个神经元提供基于所述层中的一个或多个其他神经元的能力的损失值，以预测这样的神经元的值；以及由所述一个或多个计算设备至少部分地基于包括所述创新损失项的损失函数的梯度来修改所述层中包括的神经元以解相关所述层中包括的神经元。2.根据权利要求1所述的计算机实施的方法，其中所述一个或多个层中的至少一个层包括所述神经网络的两个或多个独立的塔的相应部分，并且其中所述创新损失项为所述塔中的一个塔中包括的每个神经元，提供基于其他塔中的神经元、而不是其自身塔中的其他神经元的能力的损失值，以预测这样的神经元的值。3.根据权利要求1所述的计算机实施的方法，其中，所述神经网络的一个或多个层包括所述神经网络的一个或多个隐藏层。4.根据权利要求1所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，所述创新损失项推动这样的神经元的梯度以增加其在所述层中包括的一个或多个其他神经元上的创新。5.根据权利要求1所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，由所述创新损失项提供的所述损失值与由所述层中包括的一个或多个其他神经元预测这样的神经元的值的误差负相关。6.根据权利要求5所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，由所述层中包括的一个或多个其他神经元预测这样的神经元的值的误差包括与线性最小均方误差估计器相关联的误差。7.根据权利要求6所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，所述线性最小均方误差估计器包括在一批训练示例上计算的平均批次误差。8.根据权利要求6所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，所述线性最小均方误差估计器包括直接根据所述层内的估计的相关性计算的预期的均方误差。9.根据权利要求6所述的计算机实施的方法，其中，对于所述一个或多个层中的每个层，所述创新损失项至少部分地基于对于所述层中包括的所有神经元的线性最小均方估计器的平均来提供所述损失值。10.根据权利要求6所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，所述创新损失项相对于对于这样的神经元的线性最小均方误差估计器的平方根衰减。11.根据权利要求5所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，所述创新损失项至少部分地基于所述预测的误差的求逆来提供所述损失值。12.根据权利要求5所述的计算机实施的方法，其中，对于所述层中包括的一个或多个神经元中的每一个神经元，由所述层中包括的一个或多个其他神经元预测这样的神经元的值的误差通过解决相对于所述层中包括的一个或多个其他神经元的线性最小二乘回归问题来确定。13.根据权利要求5所述的计算机实施的方法，其中，...

【专利技术属性】
技术研发人员：GI沙米尔，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人