当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于神经元输出的白盒深度学习模型版权保护方法技术

技术编号:32854385 阅读:28 留言:0更新日期:2022-03-30 19:22
本发明专利技术公开了一种基于神经元输出的白盒深度学习模型版权保护方法,包括:设计深度学习模型内部差异度衡量指标,实现高效的种子选取策略以及指纹集生成算法,并在此基础对可疑模型进行差异度测量,最后对可疑模型是否发生侵权行为进行判断。本方法基于模型内部神经元输出,能够自动地为原模型生成指纹集合,并在多种模型窃取场景下有效;且不受数据领域以及模型结构的限制,具备良好的鲁棒性、通用性和可拓展性。相比于传统的模型水印嵌入方法,本方法无需介入深度学习模型的训练过程,避免了繁琐耗时的参数调整过程以及嵌入水印造成的精确度损失,使得对深度学习模型的版权验证及保护变得简单高效。保护变得简单高效。保护变得简单高效。

【技术实现步骤摘要】
一种基于神经元输出的白盒深度学习模型版权保护方法


[0001]本专利技术涉及深度学习模型的安全、隐私领域,特别涉及一种基于神经元输出的白盒深度学习模型版权保护方法。

技术介绍

[0002]深度学习在解决许多实际问题方面取得了巨大成功,例如图像识别、语音识别、自然语言处理等。然而训练深度学习模型并非易事,通常需要大量的资源,包括大型数据集、昂贵的计算资源以及专家知识。此外,训练高性能模型的成本随着任务复杂性和模型容量的增加而迅速增长。例如,在维基百科和图书语料库(15GB)上训练一个BERT模型大概需要160万美元。这让恶意对手(模型窃贼)有动机窃取模型并掩盖他们的踪迹,从而导致模型版权受到侵害和可能的经济损失。事实证明,窃取模型可以非常有效地完成,例如对原模型进行微调或剪枝,甚至在仅暴露原模型API的情况下,攻击者仍然可以利用模型提取技术窃取模型的大部分功能。
[0003]近年来提出的模型水印技术利用深度学习模型过拟合的特性,在训练过程中将秘密水印(例如签名)嵌入模型,来保护深度学习模型的版权。当从可疑模型中提取相同或相似的水印时,可以验证模型所有权。但目前的水印技术有两个关键缺陷:1)水印嵌入需要介入正常的训练过程,导致模型表现受损;2)过拟合嵌入的水印容易被攻击者清除,导致水印失效。因此,需要针对深度学习模型设计新的版权保护方法,用以应对复杂多变的攻击场景。

技术实现思路

[0004]本专利技术的目的在于针对现有深度学习模型水印技术的不足,提出一种基于神经元输出的白盒深度学习模型版权保护方法。
[0005]本专利技术的目的是通过以下技术方案实现的:一种基于神经元输出的白盒深度学习模型版权保护方法,该方法包括以下步骤:
[0006]步骤1:使用置信度优先策略在训练集中选取具有代表性的种子,利用反向传播优化方法基于原模型神经元输出生成特定指纹集合;
[0007]步骤2:对相同功能的可疑模型进行指纹匹配,将步骤1生成的指纹集合作为输入,获取特定神经元或特定神经层的输出,计算可疑模型和原模型的指标差异度;
[0008]步骤3:基于指标差异度对是否发生模型窃取进行判断,如果指标差异度小于设定阈值,说明可疑模型和原模型具有相似的神经元输出分布,很有可能是原模型的衍生模型,判定为发生模型窃取,否则判定为没有发生模型窃取。
[0009]进一步地,所述步骤1中,基于训练集在原模型上的概率向量输出,计算2

范数作为Gini系数,选取Gini系数最大的一部分样本作为种子,能够更好地表征原模型,提高最终判断的准确性。
[0010]进一步地,所述步骤1中,对于选定层的每个神经元,基于训练集获取对应神经元
的最大输出值,即目标值;对于每个种子样本x
i
,使用反向传播优化算法在该神经元上进行优化,保存在该神经元上输出值大于等于目标值(即优化成功)的样本x

i
;将种子集合依次进行优化生成最终指纹集合T={x
′1,x
′2,

}。
[0011]进一步地,所述步骤2中,
[0012]a.基于深度学习模型的神经元输出特性,设计了NOD(Neuron Output Distance)、NAD(Neuron Activation Distance)、LOD(Layer Output Distance)和LAD(Layer Activation Distance)距离指标。
[0013]所述NOD距离指标的公式如下:
[0014][0015]其中φ
l,i
(x)为原模型第l层的第i个神经元的输出方程,为可疑模型第l层的第i个神经元的输出方程;T={x
′1,x
′2,

}为基于原模型生成的指纹集合。
[0016]所述NAD距离指标的公式如下:
[0017][0018]其中S为阶跃函数,当正则化的神经元输出大于0.5时,返回1,即神经元处于激活状态,否则返回0,即神经元处于未激活状态。
[0019]所述LOD距离指标的公式如下:
[0020][0021]其中f
l
和分别为原模型和可疑模型第l层的输出向量,p为范数阶数,默认p=2。
[0022]所述LAD距离指标的公式如下:
[0023][0024]其中Nl为第l层的神经元数量。
[0025]b.利用步骤1生成的指纹集合对可疑模型进行验证,计算相应的指标差异度;可疑模型和原模型的差异度越小,则越有可能发生窃取行为。
[0026]c.距离指标可以基于其它属性进行后续扩展,能够更全面地刻画原模型的特征,为最终判断是否发生窃取行为提供更全面的依据。
[0027]进一步地,所述步骤3中,使用阈值对步骤2得到的指标差异度进行划分,可以根据实际应用需求进行数据分析,动态确定指标阈值。针对NOD、NAD、LOD和LAD距离指标,可以采
用如下方式:
[0028]使用原模型的训练集从随机初始起点训练一组结构相同的参考模型,默认为24个,基于指纹集合T,使用T

检验在这组参考模型上分别得到NOD、NAD、LOD和LAD指标值的95%置信度区间下限,记为LB
NOD
,LB
NAD
,LB
LOD
,LB
LAD
;四个指标对应的阈值τ
NOD
,τ
NAD
,τ
LOD
,τ
LAD
的公式如下:
[0029]τ
NOD
=LB
NOD
·
α
[0030]τ
NAD
=LB
NAD
·
α
[0031]τ
LOD
=LB
LOD
·
α
[0032]τ
LAD
=LB
LAD
·
α
[0033]其中α为动态阈值系数,默认为0.6,可根据实际应用需求调整。
[0034]进一步地,所述步骤3中,对最终是否发生模型窃取采用投票机制,当可疑模型的所有指标值均小于各自的阈值时,则判断发生模型窃取;当可疑模型的所有指标值均大于各自的阈值时,则判断未发生模型窃取;对于其他情况,说明指标上出现分歧,则判断为可能发生模型窃取,需要后续分析。
[0035]进一步地,在指纹集合T暴露的情况下,能够通过更换种子来恢复保护方法的有效性。
[0036]与现有深度学习模型水印技术相比,本专利技术具有以下优势:
[0037]1)无需介入模型的正常训练,因此不会造成额外的精确度损失;
[0038]2)指纹生成、校验效率高,计算消耗小,且可疑模型和其他模型区分度高,鲁棒性强;
[0039]3)对模型微调、剪枝等多种攻击方式具有良好鲁棒性;
...

【技术保护点】

【技术特征摘要】
1.一种基于神经元输出的白盒深度学习模型版权保护方法,其特征在于,包括以下步骤:步骤1:使用置信度优先策略在训练集中选取具有代表性的种子,利用反向传播优化方法基于原模型神经元输出生成特定指纹集合;步骤2:对相同功能的可疑模型进行指纹匹配,将步骤1生成的指纹集合作为输入,获取特定神经元或特定神经层的输出,计算可疑模型和原模型的指标差异度;步骤3:基于指标差异度对是否发生模型窃取进行判断,如果指标差异度小于设定阈值,说明可疑模型和原模型具有相似的神经元输出分布,很有可能是原模型的衍生模型,判定为发生模型窃取,否则判定为没有发生模型窃取。2.根据权利要求1所述的基于神经元输出的白盒深度学习模型版权保护方法,其特征在于,所述步骤1中,基于训练集在原模型上的概率向量输出,计算2

范数作为Gini系数,选取Gini系数最大的一部分样本作为种子。3.根据权利要求1所述的基于神经元输出的白盒深度学习模型版权保护方法,其特征在于,所述步骤1中,对于选定层的每个神经元,基于训练集获取对应神经元的最大输出值,即目标值;对于每个种子样本x
i
,使用反向传播优化算法在该神经元上进行优化,保存在该神经元上输出值大于等于目标值的样本x

i
;将种子集合依次进行优化生成最终指纹集合T={x
′1,x
′2,

}。4.根据权利要求1所述的基于神经元输出的白盒深度学习模型版权保护方法,其特征在于,所述步骤2中,基于深度学习模型的神经元输出特性,设计NOD、NAD、LOD和LAD距离指标;所述NOD距离指标的公式如下:其中φ
l,i
(x)为原模型第l层第i个神经元的输出方程,为可疑模型第l层第i个神经元的输出方程;T={x
′1,x
′2,

}为基于原模型生成的指纹集合;所述NAD距离指标NAD的公式如下:其中S为阶跃函数,当正则化的神经元输出大于0.5时,返回1,即神经元处于激活状态,否则返回0,即神经元处于未激活状态;所述LOD距离指标LOD的公式如下:其中f
l
和分别为原模型和可疑模型第l层的输出向量,p为范数阶数;所述LAD距离指标LAD的公式如下:
其中...

【专利技术属性】
技术研发人员:王竟亦陈伽洛彭汀兰孙有程程鹏马兴军
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1