基于不可学习噪声生成器的数据保护方法、设备、介质技术

技术编号:37181548 阅读:27 留言:0更新日期:2023-04-20 22:47
本发明专利技术涉及基于不可学习噪声生成器的数据保护方法、设备、介质,所述方法包括如下步骤:获取目标数据集以及随机的生成器种子,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子,完成噪声生成器进行初始化;根据所述优选的生成器种子,生成基于标签分类的不可学习噪声,针对所述目标数据集中的每个样本,加入所述不可学习噪声,获取不可学习数据集。与现有技术相比,本发明专利技术通过加噪前使用辅助分类模型进行训练,在使用生成器加噪过程中让具有相同标签的图像的噪声具有相似的特征,解决或部分解决现有的基于标签的噪声容易导致原始数据泄露的问题。标签的噪声容易导致原始数据泄露的问题。标签的噪声容易导致原始数据泄露的问题。

【技术实现步骤摘要】
基于不可学习噪声生成器的数据保护方法、设备、介质


[0001]本专利技术涉及大数据与人工智能领域,尤其是涉及一种基于不可学习噪声生成器的数据保护方法、设备、介质。

技术介绍

[0002]数据知识产权和隐私保护方法是深度学习领域中一项重要的问题。近年来深度学习在计算机视觉、自然语言处理等领域已经取得了突破性的进展,这在一定程度上归功于网络空间中数据量的指数级增长和计算机数据处理能力的不断增强。伴随着大规模数据集如ImageNet、JFT

300M等的使用,神经网络模型在一些任务上的准确程度甚至已经超过了人类。
[0003]然而大部分深度学习数据集都是研究人员从网上爬取得到的,这就会涉及到个人数据隐私的问题;同时,很多大规模数据集的采集与标注都倾注了大量的人力、物力,因此数据集的知识产权也是一个非常重要的话题。无论是未经授权的数据采集还是模型训练,都会带来关于个人隐私、知识产权方面的纠纷。对于商用的数据集来说,不诚实的用户会私自爬取公开提供的预览图像来用作深度神经网络模型的训练集,从而给数据拥有者造成损失;对于私人使用的图像,其中包含的所有者的个人隐私可能被侵犯。此外,这些图像还可能被用来训练一些用于不道德甚至非法目的的神经网络模型。
[0004]近年来,面对深度学习中数据知识产权和隐私保护中的这些关键问题,研究人员已经提出了一些解决机器学习场景下的数据集知识产权保护和数据隐私问题的方法。这些方法大致可以分成三类:训练过程中的隐私保护技术、训练完成后的侵权推断技术以及训练开始前的数据扰动技术,即不可学习样本。
[0005]训练过程中的隐私保护技术是指在模型多方合作训练过程中对训练数据或者梯度数据进行一定的修改,从而使其他参与者无法从梯度更新信息中反推出训练数据;训练完成后的侵权推断技术是依据训练完成的模型对训练数据和非训练数据的不同的表现,推断出模型训练集是否包含某个数据集;而不可学习噪声则是通过在数据集中添加肉眼无法察觉到的噪声,使其无法训练出一个有效的模型。
[0006]训练过程中的隐私保护技术在保护数据隐私方面取得了重大进展,但它的假设是,数据拥有者授权了神经网络模型的训练;侵权推断技术在白盒情况和黑盒情况下都取得了一定的成功,然而上述方法都需要数据集拥有者去追踪训练好的神经网络模型,而且数据集拥有者仍然需要花费时间和精力去进行维权;而不可学习噪声则解决了在未授权场景下对侵犯数据之产权行为的预防。
[0007]目前传统的不可学习噪声分为基于标签、基于样本两种形式。基于标签的噪声与图像所标注的标签有一对一的对应关系,而基于样本的噪声与图像本身有一对一的对应关系。传统的不可学习噪声存在以下瓶颈:
[0008](1)基于标签的噪声很容易导致原始图片的泄露:如果其中一个原始图像被泄露,那么攻击者就可以推断出该类所有图像的噪声。此外,用一些统计方法,噪音也很容易被检
测出来。
[0009](2)基于样本的噪声比较难被检测出来,但如果数据拥有者希望同时保存原始图像样本和不可学习样本,这种方法需要双倍的存储空间。
[0010](3)基于样本的噪声表现不如基于标签的噪声的表现好。

技术实现思路

[0011]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于不可学习噪声生成器的数据保护方法、设备、介质,通过加噪前使用辅助分类模型进行训练,在加噪过程中让具有相同标签的图像的噪声具有相似的特征,从而解决或部分解决现有的基于标签的噪声容易导致原始数据泄露的问题。
[0012]本专利技术的目的可以通过以下技术方案来实现:
[0013]本专利技术的一个方面,提供了一种基于不可学习噪声生成器的数据保护方法,包括如下步骤:
[0014]获取目标数据集以及随机的生成器种子,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子,基于所述优选的生成器种子构建噪声生成器;
[0015]根据所述噪声生成器,生成基于标签分类的不可学习噪声,针对所述目标数据集中的每个样本,加入所述不可学习噪声,获取不可学习数据集。
[0016]作为优选的技术方案,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子具体为:
[0017]步骤S1,根据随机产生的生成器种子,获取生成器针对所述目标数据集生成的扰动数据;
[0018]步骤S2,根据所述目标数据集以及所述扰动数据,针对所述生成器种子,使用预设的优化方法进行多次优化,获取备选的生成器种子,并使用所述备选的生成器种子获取新的扰动数据;
[0019]步骤S3,根据所述目标数据集以及新的扰动数据,针对所述辅助分类模型,使用预设的优化方法进行多次优化;
[0020]步骤S4,判断所述辅助分类模型的分类错误率是否小于预设的值,若是,所述备选的生成器种子即为优选的生成器种子,若否,执行步骤S2。
[0021]作为优选的技术方案,所述的优化方法具体为:
[0022]从所述目标数据集中获取训练数据,加入扰动数据后在所述辅助分类模型中进行正向传播,获取标签的预测概率;
[0023]根据所述预测概率,计算分类损失,获取分类损失对优化目标中各个分量的梯度,使用优化算法进行优化。
[0024]作为优选的技术方案,所述的优化算法为PGD优化方法。
[0025]作为优选的技术方案,所述的分类损失采用下式计算:
[0026][0027]式中,为所述预测概率,k为所述训练数据的数量。
[0028]作为优选的技术方案,,针对所述生成器种子,使用预设的优化方法进行多次优化采用下式实现:
[0029][0030]针对所述辅助分类模型,使用预设的优化方法进行多次优化采用下式实现:
[0031][0032]式中,θ
t
分别为第t次优化的生成器种子和辅助分类模型的分量,分别为第t+1次生成器种子和辅助分类模型的分量,分别为分类损失对生成器种子各个分量的梯度、分类损失对模型参数各个分量的梯度。
[0033]作为优选的技术方案,分类损失对生成器种子各个分量的梯度采用下式获取:
[0034][0035]式中,为扰动数据。
[0036]作为优选的技术方案,所述的目标数据集为图像数据集。
[0037]本专利技术的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于不可学习噪声生成器的数据保护方法的指令。
[0038]本专利技术的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述基于不可学习噪声生成器的数据保护方法的指令。
[0039]与现有技术相比,本专利技术具有以下优点:
[0040](1)通过加噪前使用辅助分类模型进行训练,在使用生成器加噪过程中让具有相同标签的图像的噪声具有相似的特征,避免本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不可学习噪声生成器的数据保护方法,其特征在于,包括如下步骤:获取目标数据集以及随机的生成器种子,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子,基于所述优选的生成器种子构建噪声生成器;根据所述噪声生成器,生成基于标签分类的不可学习噪声,针对所述目标数据集中的每个样本,加入所述不可学习噪声,获取不可学习数据集。2.根据权利要求1所述的一种基于不可学习噪声生成器的数据保护方法,其特征在于,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子具体为:步骤S1,根据随机产生的生成器种子,获取生成器针对所述目标数据集生成的扰动数据;步骤S2,根据所述目标数据集以及所述扰动数据,针对所述生成器种子,使用预设的优化方法进行多次优化,获取备选的生成器种子,并使用所述备选的生成器种子获取新的扰动数据;步骤S3,根据所述目标数据集以及新的扰动数据,针对所述辅助分类模型,使用预设的优化方法进行多次优化;步骤S4,判断所述辅助分类模型的分类错误率是否小于预设的值,若是,所述备选的生成器种子即为优选的生成器种子,若否,执行步骤S2。3.根据权利要求2所述的一种基于不可学习噪声生成器的数据保护方法,其特征在于,所述的优化方法具体为:从所述目标数据集中获取训练数据,加入扰动数据后在所述辅助分类模型中进行正向传播,获取标签的预测概率;根据所述预测概率,计算分类损失,获取分类损失对优化目标中各个分量的梯度,使用优化算法进行优化。4.根据权利要求3所述的一种基于不可学习噪声生成器的数据保护方法,其特征在于,所述的优...

【专利技术属性】
技术研发人员:李颉曾益吴晨涛纪呼啸余翔王超
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1