一种面向多任竞争的工人训练报酬确定方法技术

技术编号:36543615 阅读:19 留言:0更新日期:2023-02-01 16:49
本发明专利技术属于联邦学习系统中工人训练报酬确定策略技术领域,具体涉及一种面向多任竞争的工人训练报酬确定方法。本发明专利技术基于联邦学习系统中存在多个任务发布者和多个工人节点的情景,在该情景下多个任务发布者之间存在竞争关系。对于任务发布者们而言,为了在竞争中取得优势地位从而吸引更多高质量的工人节点的加入,他们需要提高所支付的报酬。但从自身利益考虑,任务发布者们又要通过降低支付报酬的方式在任务中获得更高的收益。对于工人节点而言,多个任务发布者的出现让他们有选择的最优合同的机会,以保证自己的收益。本发明专利技术可以同时满足个人理性约束和激励兼容性约束,能够平衡任务发布者和工人节点的关系,使系统中的两种角色均能获得预期收益,形成良性发展,达到激励工人节点加入联邦学习系统的目的。激励工人节点加入联邦学习系统的目的。激励工人节点加入联邦学习系统的目的。

【技术实现步骤摘要】
一种面向多任竞争的工人训练报酬确定方法


[0001]本专利技术属于联邦学习系统中工人训练报酬确定策略
,具体涉及一种面向多任竞争的工人训练报酬确定方法。

技术介绍

[0002]联邦学习系统的训练效率与其参与训练任务的工人节点在每轮迭代中所更新的本地模型的质量密切相关。然而,工人节点在参与联邦学习任务的过程中会使用计算资源、通信资源等各类资源,造成巨大的成本消耗。同时,恶意的服务器节点可以借助中间梯度推断出重要的数据信息,从而使工人节点隐私数据的安全存在不确定的因素。上述原因均导致工人节点参加联邦学习任务的积极性被极大的削弱。因此,系统中的任务发布者需要设计合适的激励机制以确定工人的报酬,以此来吸引工人节点参与联邦学习任务。
[0003]再者,联邦学习系统中存在任务发布者和工人节点之间信息不对称的问题,即每位工人节点的数据质量、计算能力等关键信息对于任务发布者不可见,任务发布者只能通过经验判断工人节点的质量分布,进而推测出每位工人节点属于某一类型的概率。为了解决这一问题,多数研究都利用契约理论将工人节点的质量类型映射成适当的奖励,以此达到吸引更多高质量的工人节点加入联邦学习系统的目的。
[0004]目前的研究所支持的场景均为一个任务发布者和多个工人节点的设定,即在系统中由一个任务发布者为多个参与任务的节点设计契约,这种假设在实际应用中是不合理的。

技术实现思路

[0005]本专利技术的目的在于提供一种面向多任竞争的工人训练报酬确定方法,在多任务发布者竞争场景下以契约理论为基础的工人训练报酬确定策略,达到吸引更多高质量的工人节点加入联邦学习的目的。
[0006]一种面向多任竞争的工人训练报酬确定方法,包括以下步骤:
[0007]1)联邦学习系统中,多个任务发布者发布训练任务,并将预先设计好的合同提交至区块链中保存;
[0008]2)系统中的工人节点通过区块查看多个任务发布者已经提交的不同的任务和合同,选择签署对于自身的最优合同;签署结束后,工人节点使用本地的数据集进行模型训练;
[0009]3)工人节点将训练好的模型上传至区块链保存;
[0010]4)任务发布者从区块链上获取已更新的模型,并在本地将所有的模型进行聚合;
[0011]5)联邦学习任务结束后,任务发布者根据其与工人节点签署的合同支付给工人节点相应的报酬,并将支付记录保存在区块链上。
[0012]进一步地,所述步骤2)具体为:
[0013]2.1)最优合同中工人节点参与任务的成本包括训练成本和通信成本;
[0014]每个工人节点都有属于自己的本地数据集,工人节点在每轮迭代中训练一次本地模型需要消耗计算时间和CPU资源
[0015][0016][0017]其中,c
n
为工人节点训练一单位大小的数据需要消耗的CPU周期数量;s
n
为工人节点的本地数据集大小;f
n
为工人节点的CPU周期频率;
[0018]工人节点将更新后的训练模型交付给任务发布者的过程通过无线通信实现,工人节点n每轮迭代过程中需要消耗通信时间和通信资源为:
[0019][0020][0021]其中,σ为所有工人节点每轮迭代结束后传递模型参数的大小为固定常量;ρ
n
为传输功率;h
n
为信道增益;N0为背景噪音;
[0022]工人节点n参与一次全局迭代过程的消耗的总时间为:
[0023][0024]工人节点n参与一次全局迭代过程的消耗的总能源为:
[0025][0026]2.2)在联邦学习系统中,收益的所有方分为任务发布者和工人节点两种角色;
[0027]对于任务发布者来说,他们能够根据以往经验推测出每个工人节点属于某种类型的概率;假设工人节点的质量分为M类,且按升序排列,表示为θ1<

<θ
m
<

<θ
M
,m∈{1,

,M};每个工人节点属于θ
M
类型的概率为p
m
,则有
[0028]由于任务发布者和工人节点之间存在信息不对称的问题,任务发布者i为不同质量类型的工人节点设计特定的合同抽象成其中,工人节点n的CPU周期频率为f
n
,该类型的工人节点对应的收益为
[0029]对于一份合同,任务发布者从工人节点n获得的收益函数U
p
为:
[0030][0031]由于联邦学习系统中不同任务发布者之间存在着竞争,且每位任务发布者都争取利益的最大化,引入工人节点选择该任务发布者的概率pc
i
,则任务发布者的总体收益函数为:
[0032][0033]对于工人节点n签署了任务发布者i提交的合同,其对应收益函数U
a
为:
[0034][0035]则工人节点的总体收益函数为:
[0036][0037]2.3)当信息存在不对称的情况时,任务发布者设计的合同需要同时满足个人理性约束和激励兼容性;
[0038]定义1:个人理性约束:每个工人节点同意参与联邦学习任务的条件是完成该任务后收益是非负的,表示如下:
[0039][0040]定义2:激励兼容性约束:每个工人节点获得最大收益的条件是选择根据自身质量类型所设计的合同,表示如下:
[0041][0042]最优合同的计算首先考虑在没有单调性约束情况下的松弛问题,再检查获得的解是否满足单调性条件;同时工人节点考虑使自己的收益最大化,使用最优的p
*
c
i
;最后根据局部向下激励约束简化约束条件,最后得到最简的最优化合同,计算如下:
[0043][0044]s.t.
[0045][0046][0047][0048][0049]2.4)具体迭代过程为:
[0050]首先以任务发布者A的合同为定值,利用该定值条件推导出任务发布者B的最优合同;接着以任务发布者B的最优合同为定值,利用该条件重新推导出任务发布者A的最优合同;重复执行上述过程,直至任务发布者A和任务发布者B的最优合同均趋于收敛,此时便可计算出每类质量的工人节点所对应的最优化合同;该均衡条件同时满足了每份合同中的个人理性约束和激励兼容性约束,即多个任务发布者在竞争条件下保证非负收益的同时,还保证了每位工人节点都能选择符合自身条件的最优化合同,获得最优的收益。
[0051]本专利技术的有益效果在于:
[0052]本专利技术基于联邦学习系统中存在多个任务发布者和多个工人节点的情景,在该情景下多个任务发布者之间存在竞争关系。对于任务发布者们而言,为了在竞争中取得优势地位从而吸引更多高质量的工人节点的加入,他们需要提高所支付的报酬。但从自身利益考虑,任务发布者们又要通过降低支付报酬的方式在任务中获得更高的收益。对于工人节点而言,多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多任竞争的工人训练报酬确定方法,其特征在于,包括以下步骤:1)联邦学习系统中,多个任务发布者发布训练任务,并将预先设计好的合同提交至区块链中保存;2)系统中的工人节点通过区块查看多个任务发布者已经提交的不同的任务和合同,选择签署对于自身的最优合同;签署结束后,工人节点使用本地的数据集进行模型训练;3)工人节点将训练好的模型上传至区块链保存;4)任务发布者从区块链上获取已更新的模型,并在本地将所有的模型进行聚合;5)联邦学习任务结束后,任务发布者根据其与工人节点签署的合同支付给工人节点相应的报酬,并将支付记录保存在区块链上。2.根据权利要求1所述的一种面向多任竞争的工人训练报酬确定方法,其特征在于:所述步骤2)具体为:2.1)最优合同中工人节点参与任务的成本包括训练成本和通信成本;每个工人节点都有属于自己的本地数据集,工人节点在每轮迭代中训练一次本地模型需要消耗计算时间和CPU资源和CPU资源和CPU资源其中,c
n
为工人节点训练一单位大小的数据需要消耗的CPU周期数量;s
n
为工人节点的本地数据集大小;f
n
为工人节点的CPU周期频率;工人节点将更新后的训练模型交付给任务发布者的过程通过无线通信实现,工人节点n每轮迭代过程中需要消耗通信时间和通信资源为:为:其中,σ为所有工人节点每轮迭代结束后传递模型参数的大小为固定常量;ρ
n
为传输功率;h
n
为信道增益;N0为背景噪音;工人节点n参与一次全局迭代过程的消耗的总时间为:工人节点n参与一次全局迭代过程的消耗的总能源为:2.2)在联邦学习系统中,收益的所有方分为任务发布者和工人节点两种角色;对于任务发布者来说,他们能够根据以往经验推测出每个工人节点属于某种类型的概率;假设工人节点的质量分为M类,且按升序排列,表示为θ1<

<θ
m


<θ
M
,m∈{1,...,<...

【专利技术属性】
技术研发人员:玄世昌杨武王巍苘大鹏吕继光王孟达
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1