一种基于后门攻击的数据集保护和验证方法技术

技术编号:27367278 阅读:14 留言:0更新日期:2021-02-19 13:51
本发明专利技术属于互联网技术领域,具体涉及一种基于后门攻击的数据集保护和验证方法,包括下列步骤:根据实际需求设置水印γ的比例;根据γ划分原始数据集为良性样本数据集D

【技术实现步骤摘要】
一种基于后门攻击的数据集保护和验证方法


[0001]本专利技术属于互联网
,具体涉及一种基于后门攻击的数据集保护和验证方法。

技术介绍

[0002]近年来,深度神经网络在各个领域都取得了较为广泛的应用。其中数据集,特别是高质量的开源数据集是深度神经网络繁荣的关键因素。这些开源数据集让研究人员可以很容易地验证他们的算法或模型的有效性,而这一过程反过来又加速了深度学习的发展。数据集的收集耗费了大量资源,其价值不言而喻,所以现有的开源数据集基本都要求它们只能用于学术或教育目的,而不能用于商业目的。基于此背景,已经有人提出了一些数据集保护技术,如匿名化、加密和水印方法进行数据集保护,它们的目的是防止未经授权的用户访问数据集。
[0003]然而,以上所提到的数据集保护方法却并不适合保护开源数据集。因为许多开源数据集对每个人都是开放访问的,唯一的要求是它们只能用于学术或教育目的。因此,保护开源数据集的主要问题是验证它是否被用于训练第三方模型。

技术实现思路

[0004]针对上述数据集保护方法不适合保护开源数据集的技术问题,本专利技术提供了一种效率高、可靠性强、实用性广的基于后门攻击的数据集保护方法。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种基于后门攻击的数据集保护和验证方法,包括下列步骤:
[0007]S1、根据实际需求设置水印γ的比例;
[0008]所述γ越小,则代表包含水印的数据所占比重越小,水印设置的越隐蔽,所述D
>attack
为攻击样本数据集,所述D
train
为原始数据集;
[0009]S2、根据S1所得的γ划分原始数据集为良性样本数据集D
benign
和攻击样本数据集D
attack

[0010]所述x
i
为输入数据,y
i
为输出标签,且x
i
∈{0,

,255}
C
×
W
×
H
,y
i
={1,

,K};
[0011]S3、为S2中划分后所得的攻击样本数据集D
attack
添加水印,得到处理后的攻击样本数据集D
modified

[0012]S4、将处理后的攻击样本数据集D
modified
与良性样本数据集D
benign
混合,得到水印数据集D
watermarked
[0013]所述D
watermarked
=D
benign
∪D
modified

[0014]所述S3中攻击样本数据集D
attack
添加水印的方法为:
[0015]S3.1、设置y
t
={1,

,K}和t∈{0,

,255}
C
×
W
×
H
分别为目标标签和指定的触发器;
[0016]S3.2、根据S3.1设置的目标标签和指定的触发器确定对攻击样本添加水印;
[0017]S3.3、根据S3.2的方法对D
attack
中包含的数据进行处理,生成处理后的攻击样本数据集D
modified

[0018]所述根据设置的目标标签与指定的触发器为样本数据添加水印的方法为:
[0019][0020]所述x
watermarked
为添加水印后的输入数据,λ∈[0,1]C
×
W
×
H
是相关参数,λ参数越小,触发器越不可见,水印越隐蔽,所述是矩阵乘法Element-wise Product。
[0021]所述生成处理后的攻击样本数据集D
modified
的方法为:
[0022]所述D
modified
={(x',y
target
)∣x'=w(x;t),(x,y)∈D
train
\D
benign
},x为输入数据,y为输出标签,w为权利要求3所述的水印添加方法,y
target
为添加的目标后门标签。
[0023]还包括若p
watermarked
>p
benign
,则判断此第三方模型使用了包含水印测试样本的数据集;若p
watermarked
≤p
benign
,则判断此第三方模型未使用包含水印测试样本的数据集;所述p
watermarked
为测试目标类水印测试样本在第三方训练模型中的后验概率,所述p
benign
为良性测试样本在第三方训练模型中的后验概率。
[0024]本专利技术与现有技术相比,具有的有益效果是:
[0025]本专利技术使用在部分样本上添加触发器的方式设置攻击样本,这使得在水印数据集上用标准的训练过程训练模型时,能在保持对良性样本的预测精度的同时指定隐藏的后门。
附图说明
[0026]图1为本专利技术的保护方法实现流程框图;
[0027]图2为本专利技术的验证方法实现流程框图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]一种基于后门攻击的数据集保护和验证方法,如图1所示,包括下列步骤:
[0030]S1、根据实际需求设置水印γ的比例;
[0031]其中:γ越小,则代表包含水印的数据所占比重越小,水印设置的越隐蔽,D
attack
为攻击样本数据集,D
train
为原始数据集;
[0032]S2、根据S1所得的γ划分原始数据集为良性样本数据集D
benign
和攻击样本数据集D
attack

[0033]所述x
i
为输入数据,y
i
为输出标签,且x
i
∈{0,

,255}
C
×
W
×
H
,y
i
={1,

,K};
[0034]S3、为S2中划分后所得的攻击样本数据集D
attack
添加水印,得到处理后的攻击样本数据集D
modified

[0035]S本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于后门攻击的数据集保护和验证方法,其特征在于:包括下列步骤:S1、根据实际需求设置水印γ的比例;所述γ越小,则代表包含水印的数据所占比重越小,水印设置的越隐蔽,所述D
attack
为攻击样本数据集,所述D
train
为原始数据集;S2、根据S1所得的γ划分原始数据集为良性样本数据集D
benign
和攻击样本数据集D
attack
;所述x
i
为输入,y
i
为输出标签,且x
i
∈{0,

,255}
C
×
W
×
H
,y
i
={1,

,K};S3、为S2中划分后所得的攻击样本数据集D
attack
添加水印,得到处理后的攻击样本数据集D
modified
;S4、将处理后的攻击样本数据集D
modified
与良性样本数据集D
benign
混合,得到水印数据集D
watermarked
;所述D
watermarked
=D
benign
∪D
modified
。2.根据权利要求1所述的一种基于后门攻击的数据集保护和验证方法,其特征在于:所述S3中攻击样本数据集D
attack
添加水印的方法为:S3.1、设置y
t
={1,

,K}和t∈{0,

,255}
C
×
W
×
H
分别为目标标签和指定的触发器;S3.2、根据S3.1设置的目标...

【专利技术属性】
技术研发人员:潘晓光王小华焦璐璐樊思佳马彩霞
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1