当前位置: 首页 > 专利查询>清华大学专利>正文

基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法技术

技术编号:37591687 阅读:21 留言:0更新日期:2023-05-18 11:28
本发明专利技术提供一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,包括:获取待训练的可解释神经网络;将所述待训练的可解释神经网络输入至预先构建的网络训练模型中,以得到训练结果;其中,所述网络训练模型是基于逻辑激活函数和层级梯度嫁接法构建的。本发明专利技术基于逻辑激活函数和层级梯度嫁接法构建了网络训练模型,所述逻辑激活函数利用新的方式模拟短路和断路操作,所述层级梯度嫁接法调整了传播方式,实现可扩展性更好、拟合能力更强的可解释神经网络训练。可解释神经网络训练。可解释神经网络训练。

【技术实现步骤摘要】
基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法及装置。

技术介绍

[0002]随着机器学习和深度学习的发展,越来越多的决策系统开始使用性能强大的深度模型或集成模型作为其基础模型,并取得了令人瞩目的效果。然而,由于深度模型和集成模型本身是一个“黑盒”,人们无法理解其内部结构和决策机制,导致该类模型的应用范围被大大限制,尤其在医疗、政治、经济、法律等对可解释性要求较高的领域。而传统的机器学习模型,例如决策树等规则模型,虽然有着较好的可解释性,但由于其本身结构的限制,其拟合能力和可扩展性都与深度模型和集成模型有着较大差距,难以满足实际应用场景的需求。
[0003]为了赋予神经网络可解释性,一种常用的方式是事后解释法(Post

hoc Methods),即对于一个已经训练好了的黑盒模型,使用代理模型(Surrogate Model)等方式进行解释。例如,LIME使用决策树或线性模型等可解释模型对神经网络的局部进行拟合,然后通过解释可解释模型的行为来理解神经网络的局部行为。然而,事后解释法无法保证得到的解释与原模型之间的一致性和忠实度,也很难做到对黑盒模型进行全局解释。另一种赋予神经网络可解释性的方式则着重于修改模型内部结构,力求使神经网络的结构以及运算等都做到透明和可解释。例如MLLP通过使用逻辑激活函数,使得神经网络的每一个节点都对应一条逻辑规则,然后使用随机二值化这一训练方法,保证了MLLP在训练之后,可以直接抽取出与其行为和性能基本一致的离散逻辑规则用于解释。RRL则在MLLP的基础之上,对逻辑激活函数进行了改进,缓解了逻辑激活函数带来的梯度消失问题。RRL还提出了单层梯度嫁接法,使得可以直接使用梯度下降法对离散模型进行优化。然而RRL的改进版逻辑激活函数由于计算耦合等问题,当处理大规模数据时,需要占用大量显存资源,进而导致运算速度过慢,可扩展性受限。另外,单次梯度嫁接法训练深层可解释神经网络时,常常难以收敛。
[0004]事后解释法虽然能够给神经网络等黑盒模型带来解释,但是存在以下几点缺陷。首先,事后解释法大多只能进行局部解释,而无法对黑盒模型进行全局解释。其次,事后解释法得到的解释与原模型之间的差异是无法避免的,这也导致事后解释的一致性和忠实度难以得到保证。最后,如何在解释的复杂度和忠实度之间进行权衡,也是一个难以解决的问题。
[0005]而通过修改神经网络内部结构来获得可解释性的方法也存在着可解释组件难以设计,可扩展性差,以及难以优化和训练等问题或缺陷。MLLP所使用的逻辑激活函数这一可解释组件,由于梯度消失和计算耦合等原因,导致其无法运用于数据规模较大的场景,尤其当特征数较多时。RRL虽然对逻辑激活函数进行了改进,一定程度上缓解了梯度消失的问题,但仍然存在计算耦合等问题,当处理大规模数据时,需要占用大量显存资源,进而导致运算速度过慢,可扩展性受限。对于可解释神经网络的优化和训练,由于使用了逻辑激活函
数,导致优化算法必须首先考虑离散模型的效果,这也使得传统的梯度下降法无法直接用于可解释神经网络的训练。因此,MLLP提出了使用随机二值化训练法。然而,该训练法无法适用于模型规模较大的情况。RRL则提出使用单次梯度嫁接法,做到直接利用梯度下降法对离散模型进行优化。然而当神经网络层数加深时,离散模型和其对应的连续模型差异随着层数逐渐加大,这也导致了从连续模型获得的梯度信息无法再指导离散模型的训练,也即单次梯度嫁接法无法用于深层可解释神经网络的训练。
[0006]综上,现有技术中存在可解释神经网络训练方法可扩展性有限、拟合能力低的问题。

技术实现思路

[0007]本专利技术提供一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法及装置,用以解决现有技术中可解释神经网络训练方法可扩展性有限、拟合能力低的缺陷,实现可扩展性更好、拟合能力更强的可解释神经网络训练。
[0008]本专利技术提供一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,包括:
[0009]获取待训练的可解释神经网络;
[0010]将所述待训练的可解释神经网络输入至预先构建的网络训练模型中,以得到训练结果;
[0011]其中,所述网络训练模型是基于逻辑激活函数和层级梯度嫁接法构建的。
[0012]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,所述待训练的可解释神经网络的网络架构包括:
[0013]逻辑层,所述逻辑层用于自动学习规则表征,所述逻辑层中的每个节点都代表一个逻辑运算,所述逻辑运算包括合取和析取;其中,所述逻辑层包括离散逻辑层和连续逻辑层两种形态;
[0014]二值化层,所述二值化层用于将连续特征值转化为一个二值向量,以输入到所述逻辑层;
[0015]层与层之间的连边,所述层与层之间的连边用于指明参与逻辑运算的变量。
[0016]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,所述网络训练模型包括:
[0017]基于逻辑激活函数,利用第一预设公式,将离散逻辑层映射到连续逻辑层;
[0018]所述第一预设公式包括:
[0019][0020]其中,Conj(h,W
i
)为合取逻辑激活函数;Disj(h,W
i
)为析取逻辑激活函数;为第一表达式;h为输入向量;W
i
为逻辑层第i个节点的权重向量;
[0021]基于层级梯度嫁接法,利用第二预设公式,调整前向传播;所述第二预设公式包括:
[0022][0023]其中,为第l层连续逻辑层的输出;为第l层连续逻辑层的参数矩阵;u
(l

1)
为第l层离散逻辑层的输出;LAF()为逻辑激活函数。
[0024]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,所述第一表达式,具体包括:
[0025][0026]其中,为第二表达式;为第三表达式;h为输入向量;W
i
为逻辑层第i个节点的权重向量。
[0027]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,所述第二表达式,具体包括:
[0028][0029]其中,α、β均为常数。
[0030]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,所述第三表达式,具体包括:
[0031][0032]其中,γ为常数。
[0033]根据本专利技术提供的一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,基于层级梯度嫁接法,利用第二预设公式,调整前向传播,之后还包括:
[0034]利用第三预设公式构建反向传播路径,进而利用梯度下降法对每一层逻辑层进行优化,所述第三预设公式包括:
[0035][0036]其中,

表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,其特征在于,包括:获取待训练的可解释神经网络;将所述待训练的可解释神经网络输入至预先构建的网络训练模型中,以得到训练结果;其中,所述网络训练模型是基于逻辑激活函数和层级梯度嫁接法构建的。2.根据权利要求1所述的基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,其特征在于,所述待训练的可解释神经网络的网络架构包括:逻辑层,所述逻辑层用于自动学习规则表征,所述逻辑层中的每个节点都代表一个逻辑运算,所述逻辑运算包括合取和析取;其中,所述逻辑层包括离散逻辑层和连续逻辑层两种形态;二值化层,所述二值化层用于将连续特征值转化为一个二值向量,以输入到所述逻辑层;层与层之间的连边,所述层与层之间的连边用于指明参与逻辑运算的变量。3.根据权利要求1所述的基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,其特征在于,所述网络训练模型包括:基于逻辑激活函数,利用第一预设公式,将离散逻辑层映射到连续逻辑层;所述第一预设公式包括:其中,Conj(h,W
i
)为合取逻辑激活函数;Disj(h,W
i
)为析取逻辑激活函数;为第一表达式;h为输入向量;W
i
为逻辑层第i个节点的权重向量;基于层级梯度嫁接法,利用第二预设公式,调整前向传播;所述第二预设公式包括:其中,为第l层连续逻辑层的输出;为第l层连续逻辑层的参数矩阵;u
(l

1)
为第l层离散逻辑层的输出;LAF()为逻辑激活函数。4.根据权利要求3所述的基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法,其特征在于,所述第一表达式,具体包括:其中,为第二表达式;为第三表达式;h...

【专利技术属性】
技术研发人员:王焯张伟刘宁李秀星王建勇
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1