匿名化模型训练方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:35606610 阅读:20 留言:0更新日期:2022-11-16 15:29
本发明专利技术公开了匿名化模型训练方法、装置及相关设备。该方法包括获取第一数据集和初始学习模型,并以第一数据集对初始学习模型进行训练,得到训练模型;获取第二数据集,并将第二数据集输入训练模型进行预测,得到初始标签,并对初始标签进行泛化,得到泛化标签;将第二数据集中每一用户信息划分为待匿名数据和准标识数据,以待匿名数据及对应的泛化标签构建决策树;对决策树中每一叶节点的待匿名数据进行匿名化处理,得到匿名化数据;集合匿名化数据和准标识数据,得到匿名扩展数据,以匿名扩展数据对初始学习模型进行训练,得到匿名化模型。该方法保证数据集匿名化处理后对学习模型准确度影响较小,从而实现效果较佳的匿名化机器学习。器学习。器学习。

【技术实现步骤摘要】
匿名化模型训练方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及模型训练
,尤其涉及一种匿名化模型训练方法、装置及相关设备。

技术介绍

[0002]网络安全法、个人信息安全规范等法规中,直接或间接的指出,除经过匿名化处理且无法复原的个人信息外,未经被收集者同意,不得向他人提供个人信息,使用匿名数据(对原始数据集进行匿名化处理)是避免触犯这些法规的常用方法。其中,匿名化处理是通过对于个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。但在匿名数据上进行机器学习通常会导致所得到的模型准确度显著降低。

技术实现思路

[0003]本专利技术实施例提供了一种匿名化模型训练方法、装置及相关设备,旨在解决现有技术中使用匿名数据进行模型训练影响模型准确度的问题。
[0004]第一方面,本专利技术实施例提供了一种匿名化模型训练方法,其包括:
[0005]获取第一数据集和初始学习模型,并以所述第一数据集对所述初始学习模型进行训练,得到训练模型;
[0006]获取第二数据集,并将所述第二数据集输入所述训练模型进行预测,得到初始标签,并对所述初始标签进行泛化,得到泛化标签,其中,所述第一数据集和第二数据集均由多条数据组成,每一条数据对应一条用户信息;
[0007]将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据,以所述待匿名数据及对应的泛化标签构建决策树,所述决策树的每一叶节点至少包括k条不同的待匿名数据;其中,k表示不可区分的用户数量下限;
[0008]对所述决策树中每一叶节点的待匿名数据进行匿名化处理,得到匿名化数据;
[0009]集合所述匿名化数据和准标识数据,得到匿名扩展数据,以所述匿名扩展数据对所述初始学习模型进行训练,得到匿名化模型。
[0010]第二方面,本专利技术实施例提供了一种匿名化模型训练装置,包括:
[0011]获取模块,用于获取第一数据集和初始学习模型,并以所述第一数据集对所述初始学习模型进行训练,得到训练模型;
[0012]预测模块,用于获取第二数据集,并将所述第二数据集输入所述训练模型进行预测,得到初始标签,并对所述初始标签进行泛化,得到泛化标签,其中,所述第一数据集和第二数据集均由多条数据组成,每一条数据对应一条用户信息;
[0013]构建模块,用于将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据,以所述待匿名数据及对应的泛化标签构建决策树,所述决策树的每一叶节点至少包括k条不同的待匿名数据;其中,k表示不可区分的用户数量下限;
[0014]匿名化处理模块,用于对所述决策树中每一叶节点的待匿名数据进行匿名化处
理,得到匿名化数据;
[0015]训练模块,用于集合所述匿名化数据和准标识数据,得到匿名扩展数据,以所述匿名扩展数据对所述初始学习模型进行训练,得到匿名化模型。
[0016]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的匿名化模型训练方法。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的匿名化模型训练方法。
[0018]本专利技术实施例提供了匿名化模型训练方法、装置及相关设备。该方法包括获取第一数据集和初始学习模型,并以第一数据集对初始学习模型进行训练,得到训练模型;获取第二数据集,并将第二数据集输入训练模型进行预测,得到初始标签,并对初始标签进行泛化,得到泛化标签;将第二数据集中每一用户信息划分为待匿名数据和准标识数据,以待匿名数据及对应的泛化标签构建决策树;对决策树中每一叶节点的待匿名数据进行匿名化处理,得到匿名化数据;集合匿名化数据和准标识数据,得到匿名扩展数据,以匿名扩展数据对初始学习模型进行训练,得到匿名化模型。该方法相比于现有技术中直接采用一个匿名化数据集对学习模型进行匿名化训练而言,本申请使用两个数据集对学习模型进行训练,并改进数据集匿名化的过程,保证数据集匿名化处理后对学习模型准确度影响较小,从而实现效果较佳的匿名化机器学习。
附图说明
[0019]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术提供的匿名化模型训练方法一实施例的流程示意图;
[0021]图2为图1中步骤S120的子流程示意图;
[0022]图3为本专利技术提供的匿名化模型训练装置一实施例的示意性框图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0025]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0026]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0027]请参阅图1所示,图1为本专利技术实施例提供的匿名化模型训练方法的流程示意图,该方法包括步骤S110~S150。
[0028]步骤S110、获取第一数据集和初始学习模型,并以所述第一数据集对所述初始学习模型进行训练,得到训练模型;
[0029]步骤S120、获取第二数据集,并将所述第二数据集输入所述训练模型进行预测,得到初始标签,并对所述初始标签进行泛化,得到泛化标签,其中,所述第一数据集和第二数据集均由多条数据组成,每一条数据对应一条用户信息;
[0030]本实施例中,获取以第一数据集和初始学习模型,并以第一数据集对初始学习模型进行训练,得到训练模型;接着获取第二数据集,将第二数据集输入训练模型中进行预测,得到第二数据集的初始标签;再对初始标签进行泛化,得到泛化标签。其中,初始模型可以是任意一种机器学习模型。第一数据集和第二数据不相交,且均由多条数据组成,每一条数据对应一条用户信息。例如,数据为姓名A、年本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种匿名化模型训练方法,其特征在于,包括:获取第一数据集和初始学习模型,并以所述第一数据集对所述初始学习模型进行训练,得到训练模型;获取第二数据集,并将所述第二数据集输入所述训练模型进行预测,得到初始标签,并对所述初始标签进行泛化,得到泛化标签,其中,所述第一数据集和第二数据集均由多条数据组成,每一条数据对应一条用户信息;将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据,以所述待匿名数据及对应的泛化标签构建决策树,所述决策树的每一叶节点至少包括k条不同的待匿名数据,其中,k表示不可区分的用户数量下限;对所述决策树中每一叶节点的待匿名数据进行匿名化处理,得到匿名化数据;集合所述匿名化数据和准标识数据,得到匿名扩展数据,以所述匿名扩展数据对所述初始学习模型进行训练,得到匿名化模型。2.根据权利要求1所述的匿名化模型训练方法,其特征在于,所述对所述初始标签进行泛化,得到泛化标签,包括:确定所述初始标签关联的已泛化的类别标签;确定所述初始标签的标签值,并根据所述标签值将所述初始标签划入至所属的类别标签,以所属的类别标签作为泛化标签。3.根据权利要求1所述的匿名化模型训练方法,其特征在于,所述将所述第二数据集中每一用户信息划分为待匿名数据和准标识数据,包括:将所述第二数据集中可直接表征用户身份信息的列数据划分为所述待匿名数据;将所述第二数据集中无法直接表征用户身份信息的列数据划分为所述准标识数据,其中,所述第二数据集中具有多行数据,每一行对应一条用户信息,每一条用户信息具有多个属性列。4.根据权利要求1所述的匿名化模型训练方法,其特征在于,所述对所述决策树中每一叶节点的待匿名数据进行匿名化处理,得到匿名化数据,包括:从所述决策树中每一叶节点选取1个待匿名数据作为代表数据,并将所述决策树中每一叶节点剩余的待匿名数据作为区分数据;将所有所述区分数据的值修改为所述代表数据的值,得到所述匿名化数据。5.根据权利要求1所述的匿名化模型...

【专利技术属性】
技术研发人员:钟焰涛董坤磊郑毅王伟
申请(专利权)人:华润数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1