一种基于综合类激活映射的图像分类可解释方法技术

技术编号:34569539 阅读:17 留言:0更新日期:2022-08-17 13:00
一种基于综合类激活映射的图像分类可解释性方法。本发明专利技术公开了一种基于综合类激活映射的图像分类可解释性方法,可以实现类判别性更好、噪声更小的解释效果。它的可解释方法如下:为了让权值的求解具有一定的数学逻辑依据,引入敏感性和一致性公理;使用消融下降(Ablation drop)作为特征图的初始权重,以解决梯度加权类激活映射存在的梯度饱和问题;将初始掩码进行双线性插值上采样、归一化和高斯噪声处理操作;处理后的掩码与输入图像进行哈达玛积,经网络模型计算后进行加权平均处理得到激活图的最终权重。本发明专利技术应用于卷积神经网络图像分类模型的可解释性。络图像分类模型的可解释性。络图像分类模型的可解释性。

【技术实现步骤摘要】
一种基于综合类激活映射的图像分类可解释方法


[0001]本专利技术涉及深度学习可解释性
中,具体涉及一种基于综合类激活映射的图像分类可解释方法。

技术介绍

[0002]近年来,深度学习在图像、声音、自然语言处理等领域取得卓越成效,但对于产生的结果是不容易解释的,有些情况下甚至是不可控的,这一架构在“端到端”模式下、通过计算大量的数据来进行误差反向传播而优化参数的学习方法被比喻为一个“黑盒子”。在图像目标识别的过程中机理不清楚,造成目标特征不直观、网络可分性不可控,对很多现象无法正确解释。由于模型内部的非线性和复杂性,导致无法以人类可理解的方式理解模型的决策结果,造成了深度学习模型的不可解释性,人们难以得知深度模型到底从训练数据中学到了哪些东西,以及如何进行最终决策的,这极大地限制了深度模型的广泛应用。深度学习模型的不可解释性也会带来许多潜在的危险,尤其是在安全攻防领域。一方面会降低模型的可信赖度,难以让人类相信深度学习模型;另一方面也会带来比较棘手的安全性问题,例如,当对抗样本扰动对模型造成干扰时,很难弄清楚导致结果出现了巨大偏差的原因,从而导致难以对对抗攻击的来源进行追踪。
[0003]因此,开展深度卷积神经网络图像分类任务的可解释性算法研究,解决多层智能识别网络缺乏数学理论支撑、存在机理不明确等问题。突破网络结构、参数寻优、收敛控制、误差边界、学习速度等黑盒因素的数学解释的关键技术,解决无法使用模型解析方法对智能算法提供可靠性理论依据的问题。

技术实现思路

[0004]本专利技术的目的是为了实现类判别性更好、噪声更小的解释效果,提出的一种基于综合类激活映射的图像分类可解释方法。
[0005]上述专利技术目的主要是通过以下技术方案实现的:
[0006]S1、将输入图像送入图像分类网络生成选定特征层的特征图;
[0007]S2、引入敏感性(Sensitivity)以及一致性(Conservation)公理;
[0008]如图1所示最终的类激活映射都是对卷积特征图的加权求和,的计算公式如下:
[0009][0010]式中c为感兴趣类别,即待可视化的类别,l为应用CAM的目标层,A
k
为网络第l层第k个通道的特征图,为特征图A
k
的权重;
[0011]权值的确定是关键问题,不同的权值定义产生不同的CAM方法,常用的CAM方法有CAM、Grad

CAM、Grad

CAM++等。CAM是类激活映射系列方法的开山鼻祖,但由于无法可视化带有全连接层的CNN,其应用场景受限。除CAM以外,最为人所知的方法是Grad
‑ꢀ
CAM,该方
法首先计算感兴趣类别得分(softmax归一化之前的值)相对每个特征映射的梯度,然后用每个特征映射的梯度平均值作为对应特征映射的权值。Grad

CAM适用于任意CNN 结构,但缺乏充分的数学逻辑来证明梯度的平均可以代表各个特征映射对分类结果的重要性。
[0012]公理是可视化方法应该满足的不言而喻的特性,满足这些公理使得可视化的方法更加可靠和理论化。因此,为了更好的可视化和解释CNN的决策,本专利技术引入两个公理:敏感性和一致性。
[0013]敏感性的计算公式如下:
[0014][0015]式中A
l
表示网络的第l层响应,S
c
(A
l
)为CNN预测的c类得分,为将第K个特征映射置为0后CNN预测到的c类得分,满足敏感性意味着特征映射的重要性等于移除该特征映射前后的类别得分之差;
[0016]一致性的计算公式如下:
[0017][0018]一致性要求基于CAM方法所成的结果图响应总和等于感兴趣类别的得分;
[0019]某一特征映射置为零后,其得分下降的越明显,该特征映射的重要性应该越高,敏感性正是基于这种观点建立的,一致性的引入是为了确保类别得分主要受特征映射支配,而不是由其它一些不可控的因素主导。
[0020]S3、在满足公理的条件下,使用消融下降(Ablation drop)作为特征图的初始权重;
[0021]消融分析初始研究的是单个神经元对训练网络的重要性,实验表明一个良好的广义网络对单个神经元的依赖程度较低,消融单个神经元(将激活值设置为零)对整个网络性能的影响可以忽略不计。如图2所示本专利技术没有考虑单个神经元消融对图像分类网络模型性能的影响,而是考虑消融特征图的某一维通道信息(将激活值设置为零)。
[0022]删除特征地图的某一维通道信息会严重影响特定类别的准确性,表明了这一通道对特定类的重要性。因此可以使用该消融下降代替全局平均梯度,作为最终的卷积层的权重。消融下降满足敏感性公理,又不会像Grad

CAM存在梯度饱和问题;
[0023][0024]式中y
c
为输入类别c的预测值,为预先选中特征层中没有第k维通道数的预测值。这个权重可以解释为当特征图A
lk
被移除时,类别c的激活分数下降的百分比。将特征映射A
lk
的所有激活单元设置为零,并输入图像重复相同的前向传递,消融单元k会导致激活分数降低。不受梯度饱和(将重要的过滤器标记为不重要)和爆炸(将不重要的过滤器标记为重要)。可以简单的解释为移除A
lk
时类别c激活分数的下降。
[0025]S4、初始权重与特征图进行加权组合和非线性激活函数得到初始掩码;
[0026]S5、初始掩码通过双线性插值上采样到输入图像大小,再进行最大最小归一化处理得到最终掩码;
[0027]S6、对最终掩码添加高斯噪声产生N个噪声样本图像;
[0028]S7、噪声样本图像与输入图像进行哈达玛积之后送入图像分类网络得到N个分数,进行平均和Softmax获得最终权重;
[0029]S8、将最终权重与初始选定的特征图进行加权组合和非线性激活得到显著性图。
[0030]专利技术效果
[0031]本专利技术提供了一种基于综合类激活映射的图像分类可解释方法。本方法首先引入敏感性和一致性公理,为掩码和最终特征映射的权重求解提供了数学逻辑支撑。使用消融下降作为特征映射的初始权重,消除了网络模型中由于ReLU非线性激活函数存在的梯度饱和局部不平滑问题。对初始掩码进行双线性插值上采样和最大最小归一化处理操作,解决了初始掩码在视觉上的噪声。为了防止前向运算产生噪声,对处理后的掩码添加高斯噪声产生N个噪声样本图像,噪声样本图像与输入图像进行哈达玛积生成新的输入数据,将新数据输入如图3 所示的图像分类网络模型得到最终的权重,将最终权重与初始选定的特征图进行加权组合和非线性激活得到显著性图。实验表明,该方法显著性图噪声更小,不仅可以准确地定位一个类别的单个目标,还可以准确地定位一个类别的多个目标。
附图说明
[0032]图1为结构图;
[0033]图2为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于综合类激活映射的图像分类可解释性方法,其特征在于,包括以下步骤:S1、将输入图像送入图像分类网络生成选定特征层的特征图;S2、引入敏感性(Sensitivity)以及一致性(Conservation)公理;S3、在满足公理的条件下,使用消融下降(Ablation drop)作为特征图的初始权重;S4、初始权重与特征图进行加权组合和非线性激活函数得到初始掩码;S5、初始掩码通过双线性插值上采样到输入图像大小,再进行最大最小归一化处理得到最终掩码;S6、对最终掩码添加高斯噪声产生N个噪声样本图像;S7、噪声样本图像与输入图像进行哈达玛积之后送入图像分类网络得到N个分数,进行平均和Softmax获得最终权重;S8、将最终权重与初始选定的特征图进行加权组合和非线性激活得到显著性图。2.如权利要求1所述的一种基于综合类激活映射的图像分类可解释性方法,其特征在于,步骤S2中所述的引入敏感性和一致性公理让权重的求解具备一定的数学逻辑依据,最终的类激活映射都是对卷积特征图的加权求和,的计算公式如下:式中c为感兴趣类别,即待可视化的类别,l为应用CAM的目标层,A
k
...

【专利技术属性】
技术研发人员:黄金杰姬远方
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1