基于不可学习噪声生成器的数据保护方法、设备、介质技术

技术编号：37181548 阅读：27 留言：0更新日期：2023-04-20 22:47

本发明专利技术涉及基于不可学习噪声生成器的数据保护方法、设备、介质，所述方法包括如下步骤：获取目标数据集以及随机的生成器种子，针对所述生成器种子，采用预设的辅助分类模型进行优化，获取优选的生成器种子，完成噪声生成器进行初始化；根据所述优选的生成器种子，生成基于标签分类的不可学习噪声，针对所述目标数据集中的每个样本，加入所述不可学习噪声，获取不可学习数据集。与现有技术相比，本发明专利技术通过加噪前使用辅助分类模型进行训练，在使用生成器加噪过程中让具有相同标签的图像的噪声具有相似的特征，解决或部分解决现有的基于标签的噪声容易导致原始数据泄露的问题。标签的噪声容易导致原始数据泄露的问题。标签的噪声容易导致原始数据泄露的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于不可学习噪声生成器的数据保护方法、设备、介质

[0001]本专利技术涉及大数据与人工智能领域，尤其是涉及一种基于不可学习噪声生成器的数据保护方法、设备、介质。

技术介绍

[0002]数据知识产权和隐私保护方法是深度学习领域中一项重要的问题。近年来深度学习在计算机视觉、自然语言处理等领域已经取得了突破性的进展，这在一定程度上归功于网络空间中数据量的指数级增长和计算机数据处理能力的不断增强。伴随着大规模数据集如ImageNet、JFT
‑
300M等的使用，神经网络模型在一些任务上的准确程度甚至已经超过了人类。
[0003]然而大部分深度学习数据集都是研究人员从网上爬取得到的，这就会涉及到个人数据隐私的问题；同时，很多大规模数据集的采集与标注都倾注了大量的人力、物力，因此数据集的知识产权也是一个非常重要的话题。无论是未经授权的数据采集还是模型训练，都会带来关于个人隐私、知识产权方面的纠纷。对于商用的数据集来说，不诚实的用户会私自爬取公开提供的预览图像来用作深度神经网络模型的训练集，从而给数据拥有者造成损失；对于私人使用的图像，其中包含的所有者的个人隐私可能被侵犯。此外，这些图像还可能被用来训练一些用于不道德甚至非法目的的神经网络模型。
[0004]近年来，面对深度学习中数据知识产权和隐私保护中的这些关键问题，研究人员已经提出了一些解决机器学习场景下的数据集知识产权保护和数据隐私问题的方法。这些方法大致可以分成三类：训练过程中的隐私保护技术、训练完成后的侵权推断技术以及训练开始前的数据扰...

【技术保护点】

【技术特征摘要】
1.一种基于不可学习噪声生成器的数据保护方法，其特征在于，包括如下步骤：获取目标数据集以及随机的生成器种子，针对所述生成器种子，采用预设的辅助分类模型进行优化，获取优选的生成器种子，基于所述优选的生成器种子构建噪声生成器；根据所述噪声生成器，生成基于标签分类的不可学习噪声，针对所述目标数据集中的每个样本，加入所述不可学习噪声，获取不可学习数据集。2.根据权利要求1所述的一种基于不可学习噪声生成器的数据保护方法，其特征在于，针对所述生成器种子，采用预设的辅助分类模型进行优化，获取优选的生成器种子具体为：步骤S1，根据随机产生的生成器种子，获取生成器针对所述目标数据集生成的扰动数据；步骤S2，根据所述目标数据集以及所述扰动数据，针对所述生成器种子，使用预设的优化方法进行多次优化，获取备选的生成器种子，并使用所述备选的生成器种子获取新的扰动数据；步骤S3，根据所述目标数据集以及新的扰动数据，针对所述辅助分类模型，使用预设的优化方法进行多次优化；步骤S4，判断所述辅助分类模型的分类错误率是否小于预设的值，若是，所述备选的生成器种子即为优选的生成器种子，若否，执行步骤S2。3.根据权利要求2所述的一种基于不可学习噪声生成器的数据保护方法，其特征在于，所述的优化方法具体为：从所述目标数据集中获取训练数据，加入扰动数据后在所述辅助分类模型中进行正向传播，获取标签的预测概率；根据所述预测概率，计算分类损失，获取分类损失对优化目标中各个分量的梯度，使用优化算法进行优化。4.根据权利要求3所述的一种基于不可学习噪声生成器的数据保护方法，其特征在于，所述的优...

【专利技术属性】
技术研发人员：李颉，曾益，吴晨涛，纪呼啸，余翔，王超，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人