匿名化模型训练方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号：35606610 阅读：25 留言：0更新日期：2022-11-16 15:29

本发明专利技术公开了匿名化模型训练方法、装置及相关设备。该方法包括获取第一数据集和初始学习模型，并以第一数据集对初始学习模型进行训练，得到训练模型；获取第二数据集，并将第二数据集输入训练模型进行预测，得到初始标签，并对初始标签进行泛化，得到泛化标签；将第二数据集中每一用户信息划分为待匿名数据和准标识数据，以待匿名数据及对应的泛化标签构建决策树；对决策树中每一叶节点的待匿名数据进行匿名化处理，得到匿名化数据；集合匿名化数据和准标识数据，得到匿名扩展数据，以匿名扩展数据对初始学习模型进行训练，得到匿名化模型。该方法保证数据集匿名化处理后对学习模型准确度影响较小，从而实现效果较佳的匿名化机器学习。器学习。器学习。

全部详细技术资料下载

【技术实现步骤摘要】
匿名化模型训练方法、装置、计算机设备及可读存储介质

[0001]本专利技术涉及模型训练
，尤其涉及一种匿名化模型训练方法、装置及相关设备。

技术介绍

[0002]网络安全法、个人信息安全规范等法规中，直接或间接的指出，除经过匿名化处理且无法复原的个人信息外，未经被收集者同意，不得向他人提供个人信息，使用匿名数据(对原始数据集进行匿名化处理)是避免触犯这些法规的常用方法。其中，匿名化处理是通过对于个人信息的技术处理，使得个人信息主体无法被识别，且处理后的信息不能被复原的过程。但在匿名数据上进行机器学习通常会导致所得到的模型准确度显著降低。

技术实现思路

[0003]本专利技术实施例提供了一种匿名化模型训练方法、装置及相关设备，旨在解决现有技术中使用匿名数据进行模型训练影响模型准确度的问题。
[0004]第一方面，本专利技术实施例提供了一种匿名化模型训练方法，其包括：
[0005]获取第一数据集和初始学习模型，并以所述第一数据集对所述初始学习模型进行训练，得到训练模型；
[0006]获取第二数据集，并将所述第二数据集输入所述训练模型进行预测，得到初始标签，并对所述初始标签进行泛化，得到泛化标签，其中，所述第一数据集和第二数据集均由多条数据组成，每一条数据对应一条用户信息；
[0007]将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据，以所述待匿名数据及对应的泛化标签构建决策树，所述决策树的每一叶节点至少包括k条不同的待匿名数据；其中，k表示不可区分的用户数量...

【技术保护点】

【技术特征摘要】
1.一种匿名化模型训练方法，其特征在于，包括：获取第一数据集和初始学习模型，并以所述第一数据集对所述初始学习模型进行训练，得到训练模型；获取第二数据集，并将所述第二数据集输入所述训练模型进行预测，得到初始标签，并对所述初始标签进行泛化，得到泛化标签，其中，所述第一数据集和第二数据集均由多条数据组成，每一条数据对应一条用户信息；将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据，以所述待匿名数据及对应的泛化标签构建决策树，所述决策树的每一叶节点至少包括k条不同的待匿名数据，其中，k表示不可区分的用户数量下限；对所述决策树中每一叶节点的待匿名数据进行匿名化处理，得到匿名化数据；集合所述匿名化数据和准标识数据，得到匿名扩展数据，以所述匿名扩展数据对所述初始学习模型进行训练，得到匿名化模型。2.根据权利要求1所述的匿名化模型训练方法，其特征在于，所述对所述初始标签进行泛化，得到泛化标签，包括：确定所述初始标签关联的已泛化的类别标签；确定所述初始标签的标签值，并根据所述标签值将所述初始标签划入至所属的类别标签，以所属的类别标签作为泛化标签。3.根据权利要求1所述的匿名化模型训练方法，其特征在于，所述将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据，包括：将所述第二数据集中可直接表征用户身份信息的列数据划分为所述待匿名数据；将所述第二数据集中无法直接表征用户身份信息的列数据划分为所述准标识数据，其中，所述第二数据集中具有多行数据，每一行对应一条用户信息，每一条用户信息具有多个属性列。4.根据权利要求1所述的匿名化模型训练方法，其特征在于，所述对所述决策树中每一叶节点的待匿名数据进行匿名化处理，得到匿名化数据，包括：从所述决策树中每一叶节点选取1个待匿名数据作为代表数据，并将所述决策树中每一叶节点剩余的待匿名数据作为区分数据；将所有所述区分数据的值修改为所述代表数据的值，得到所述匿名化数据。5.根据权利要求1所述的匿名化模型...

【专利技术属性】
技术研发人员：钟焰涛，董坤磊，郑毅，王伟，
申请(专利权)人：华润数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人