基于数字水印技术的去中心化联邦学习训练行为监督方法技术

技术编号:36687347 阅读:25 留言:0更新日期:2023-02-27 19:51
本发明专利技术属于联邦学习技术领域,具体涉及一种基于数字水印技术的去中心化联邦学习训练行为监督方法。本发明专利技术包括任务发布者初始化全局模型,并准备若干水印数据集,向选定的工人节点发送初始全局模型以及水印数据集;工人节点将本地数据集以及水印数据集拼接之后进行本地训练,完成水印的嵌入过程;任务发布者对数字水印进行验证,根据数字水印的完成情况,标识工人节点的训练诚实度。本发明专利技术针对去中心化联邦学习体系结构中工人节点伪造训练结果而影响模型训练整体精度的问题,通过拓展数字水印的应用场景,将每个工人节点的训练行为量化、可视化,从而达成促使工人节点在训练行为上保持诚实的目的,为去中心化的联邦学习系统提供可信的算力支持。提供可信的算力支持。提供可信的算力支持。

【技术实现步骤摘要】
基于数字水印技术的去中心化联邦学习训练行为监督方法


[0001]本专利技术属于联邦学习
,具体涉及一种基于数字水印技术的去中心化联邦学习训练行为监督方法。

技术介绍

[0002]近年来,随着物联网、边缘计算、人工智能等技术的快速发展,越来越多的智能终端设备接入互联网,产生了海量的终端数据。海量数据在为人工智能技术发展提供坚实基础的同时,也使得面向智能终端的隐私保护与针对海量数据的处理技术面临更加严峻的威胁和挑战。虽然联邦学习通过其“数据不动,模型动”的独特优势为上述问题提供了一个可行方案。但是,当前的联邦学习应用系统大多由业务方或设备所有方建立,存在接入规模受限、数据扩展困难、系统建设成本高等问题,导致大量的数据需求方与数据所有方之间无法有效对接,限制数据价值的发挥。因此出现了去中心化的联邦学习系统结构,该结构体系中,数据的需求方与数据的拥有方形成1对N或者N对N的关系,使得需求双方的对接不再受制于平台限制,去中心化联邦学习虽然为需求对接实现带来了极大的便利,但是其同样失去了统一的运营服务以及监管便利。工人节点作为去中心化联邦学习体系结构中训练行为的执行者,其保持行为的诚实是该体系结构稳定运行的关键,任何在模型训练中的不良行为都将将限制该体系结构的发展。

技术实现思路

[0003]本专利技术的目的在于提供一种基于数字水印技术的去中心化联邦学习训练行为监督方法。
[0004]一种基于数字水印技术的去中心化联邦学习训练行为监督方法,包括以下步骤:
[0005]1)任务发布者初始化全局模型,并准备若干水印数据集,向选定的工人节点发送初始全局模型以及水印数据集;水印数据集的构建思路为在与训练数据无关的图像中添加固定的模式,并为其添加一个来自实际任务的标签;
[0006]2)工人节点将本地数据集以及水印数据集拼接之后进行本地训练,完成水印的嵌入过程;
[0007]3)任务发布者对数字水印进行验证,该验证结果标识了工人节点的训练行为;
[0008]4)多次执行步骤2)与步骤3),在一次联邦学习的过程中持续量化工人节点的训练行为;
[0009]5)根据数字水印的完成情况,标识工人节点的训练诚实度;
[0010]6)全局模型的性能达到指定要求,联邦学习过程完成,工人节点的训练行为监督完成。
[0011]进一步地,所述步骤2)中水印的嵌入借助深度神经网络的内在学习能力进行,嵌入过程具体为:
[0012]2.1)工人训练行为真实性评估;
[0013]使用任务发布者下发的数字水印数据集对所有局部模型进行校验,测试该局部模型在上的准确性,具体将进行两个维度的检查,检查结果将作为工人训练行为评价的主要依据,用于任务发布者对是否继续选择该工人进行后续的训练任务的决策;
[0014]2.2)水印任务的准确性评估;
[0015]使用水印数据集对聚合后的新全局模型进行检测,用于判断是否需要进行水印模型的替换;在必要时进行水印数据集的替换,保证工人节点的训练行为被完整、持续的量化;
[0016]2.3)任务发布者将工人们返回的训练结果进行聚合,得到新的全局模型M
G(t+1)

[0017][0018]2.4)在完成全局模型的聚合过程之后,任务发布者使用主要任务的验证集对新的全局模型进行性能验证,判断其是否符合使用要求,并对是否继续进行联邦学习的下一轮训练过程进行决策。
[0019]进一步地,所述步骤3)中任务发布者对数字水印进行验证的具体过程为:
[0020]3.1)算法SF

WE将原始水印数据集和标签映射关系σ={Y
o
,Y
n
}作为输入,o≠n,并输出水印数据集进而在工人节点进行训练之后,输出带有水印的局部模型
[0021]其中,标签映射关系由任务发布者定义,表明了如何对水印进行标记;Y
o
是原始数据的真实标签;Y
n
是预先定义的水印标签,该标签将包括用于训练行为验证的指纹;
[0022]3.2)算法的watermarkingEmbedding()函数从被训练的数据集中抽出所有标签为Y
o
的标签,在此基础上生成相应的模式并用Y
n
重新标记;工人节点在接收到完整的水印数据集之后,使用数据集和本地数据集D
local
进行本地训练,在训练过程中,DNN将自动学习这些水印数据的模式,由任务发布者指定的水印被嵌入到了该工人节点的局部模型中;数字水印的完成度将随着工人节点本地训练轮次的增加而逐渐增加;
[0023]3.3)对局部模型进行聚合得到新的全局模型,对该全局模型进行水印可用性检查,不满足可用条件则进行水印数据集的替换,替换后对全局模型性能进行检查,不符合条件则继续训练过程。
[0024]进一步地,所述步骤3.3)中水印数据集的替换过程具体为:
[0025]定义可观察系数为δ,当轮次t的全局模型在水印数据集上的准确率与前一轮次的准确率差值小于可观察系数时,说明水印数据集已经达到了不可用状态ΔF;为了使该评判标准拥有一定的容错率,定义容忍系数Cnt
useless
为可以容忍的达到不可用状态的次数,在未满足该次数之前,认为水印数据集始终处于可用状态;当水印数据集在全局模型上的表现同时满足上述条件时,进行水印数据集的替换取消水印数据集对应的水印任务T
x
的强化,启用水印数据集对应的水印任务T
y

[0026]随着训练轮次的进行,任务T
x
在主要任务T上的表现将会逐渐下降,水印任务逐渐消亡,当T
x
在主要任务T上的表现下降到一定程度之后,T
x
将从不可用状态恢复到可用状态,可以参与下一次的水印轮换,即上述水印轮换过程可以表示为:
[0027][0028][0029]其中,e
f
为任务到达不可用状态时经过的轮次;表示任务T
x
在第i轮时表现出的状态;
[0030]由于水印消亡的速度要小于水印创建的速度,因此,以两个相同规模的水印数据集对应的两个水印任务T1和T2为例,假设任务T1在达到不可用状态之后与任务T2进行了轮换,而任务T2在达到不可用状态需要进行轮换时,应当和它进行轮换的任务T1并没有完全消亡,从而将从部分消亡的状态继续进行水印任务,而这一次其达到不可用状态所需的轮次数量将低于前一次达到不可用状态的轮次数量,也就是说,在经过k次的上述重复交换之后,两个任务的初始状态将都变为不可用状态,无法完成后续的任务;两个任务都达到不可用状态所经过的轮次为:
[0031][0032]其中,表示任务T1在第i次消亡时重新达到不可用状态时所经过的轮次;因此,在水印数据集规模相同的情况下,通过对水印任务创建速率和消亡速率的确定,即可确定完成整个联邦学习训练所需的数据集个数。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数字水印技术的去中心化联邦学习训练行为监督方法,其特征在于,包括以下步骤:1)任务发布者初始化全局模型,并准备若干水印数据集,向选定的工人节点发送初始全局模型以及水印数据集;水印数据集的构建思路为在与训练数据无关的图像中添加固定的模式,并为其添加一个来自实际任务的标签;2)工人节点将本地数据集以及水印数据集拼接之后进行本地训练,完成水印的嵌入过程;3)任务发布者对数字水印进行验证,该验证结果标识了工人节点的训练行为;4)多次执行步骤2)与步骤3),在一次联邦学习的过程中持续量化工人节点的训练行为;5)根据数字水印的完成情况,标识工人节点的训练诚实度;6)全局模型的性能达到指定要求,联邦学习过程完成,工人节点的训练行为监督完成。2.根据权利要求1所述的一种基于数字水印技术的去中心化联邦学习训练行为监督方法,其特征在于:所述步骤2)中水印的嵌入借助深度神经网络的内在学习能力进行,嵌入过程具体为:2.1)工人训练行为真实性评估;使用任务发布者下发的数字水印数据集对所有局部模型进行校验,测试该局部模型在上的准确性,具体将进行两个维度的检查,检查结果将作为工人训练行为评价的主要依据,用于任务发布者对是否继续选择该工人进行后续的训练任务的决策;2.2)水印任务的准确性评估;使用水印数据集对聚合后的新全局模型进行检测,用于判断是否需要进行水印模型的替换;在必要时进行水印数据集的替换,保证工人节点的训练行为被完整、持续的量化;2.3)任务发布者将工人们返回的训练结果进行聚合,得到新的全局模型M
G(t+1)
;2.4)在完成全局模型的聚合过程之后,任务发布者使用主要任务的验证集对新的全局模型进行性能验证,判断其是否符合使用要求,并对是否继续进行联邦学习的下一轮训练过程进行决策。3.根据权利要求1所述的一种基于数字水印技术的去中心化联邦学习训练行为监督方法,其特征在于:所述步骤3)中任务发布者对数字水印进行验证的具体过程为:3.1)算法SF

WE将原始水印数据集和标签映射关系σ={Y
o
,Y
n
}作为输入,o≠n,并输出水印数据集进而在工人节点进行训练之后,输出带有水印的局部模型其中,标签映射关系由任务发布者定义,表明了如何对水印进行标记;Y
o
是原始数据的真实标签;Y
n
是预先定义的水印标签,该标签将包括用于训练行为验证的指纹;3.2)算法的watermarkingEmbedding()函数从被训练的数据集中抽出所有标签为Y
o
的标签,在此基础上生成相应的模式并用Y
n
重新...

【专利技术属性】
技术研发人员:玄世昌杨武王巍苘大鹏吕继光李鑫张浩然
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1