一种特定指标下的联邦学习激励方法技术

技术编号:33045665 阅读:24 留言:0更新日期:2022-04-15 09:29
本发明专利技术提供了一种特定指标下的两阶段联邦学习激励方法,包括如下步骤:接受平台服务器发布的平台模型精度提升任务指标;根据平台服务器发布的模型精度提升目标制定学习策略;基于上述学习策略训练获取平台服务器的总奖励额;获得平台服务器基于对平台模型精度值提升贡献占比分配的奖励额。本发明专利技术提出的一种在特定模型精度指标下的两阶段联邦学习激励机制,可以更加同实际相结合,降低了不必要的成本浪费,而且从数据质量与数据数量的角度设计的激励机制更加全面、科学,系统性地提高了联邦学习的训练效率。邦学习的训练效率。邦学习的训练效率。

【技术实现步骤摘要】
一种特定指标下的联邦学习激励方法


[0001]本专利技术提供一种特定指标下的联邦学习激励方法,属于分布式机器学习领域,具体提供了一种特定指标下的联邦学习激励方法。

技术介绍

[0002]随着机器学习技术的不断发展,数据安全已经成为一个不可避免的问题,而联合学习作为一种新的分布式机器学习模型可以很好地解决数据隐私问题。基本的联合学习模型解决了数据隐私问题,但像人群感知、这样的技术还存在另一个问题,即数据岛和平台服务器之间的协作变得低效。因此,设计适当的激励机制,使每个参与者和社会的利益最大化,是普遍的做法。
[0003]联邦学习激励机制的主要研究方向有Stackelberg博弈、拍卖、契约理论、Shapley值、强化学习、区块链等。其中,Stackelberg博弈可以很好地构建联合学习各相关主体之间的关系,即平台服务器与数据岛之间的关系描述为主从博弈之间的关系。然而,目前的研究主要集中在理论上构建的指标不确定条件下的复杂激励机制。但在现实中,训练模型的精度可能只满足具体指标的要求。即出现未结合现实情况,仅以得出理论最优解为目的,而忽略了实际操作过程中的模型精度冗余问题,可能会导致成本增加问题;未有效将数据质量和数据数量作为激励机制的依据。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种特定指标下的联邦学习激励方法,适用于平台服务器与多个数据孤岛间协作,包括如下步骤,
[0005]S1:接受平台服务器发布的平台模型精度提升任务指标;
[0006]S2:根据平台服务器发布的模型精度提升目标制定学习策略;
[0007]S3:基于上述学习策略训练获取平台服务器的总奖励额;
[0008]S4:获得平台服务器基于对平台模型精度值提升贡献占比分配的奖励额。
[0009]进一步的,步骤S2中,数据孤岛基于自身效用最大化制定学习策略,具体步骤如下,
[0010]1)建立数据孤岛的效用模型:
[0011]U
i
=R
i

C
i
,i∈(1,...,N),
ꢀꢀ
(1)
[0012]设定C
i
=v
i
a
i

i
q
i
,Δθ
i
=σlog
κ
(q
i a
i
);
[0013]其中,U
i
为数据孤岛i的效用,R
i
表示数据孤岛i获得的奖励,C
i
表示数据孤岛i的训练成本,Δθ
i
表示数据孤岛i对模型训练精度的提升值,a
i
为数据数量,q
i
为数据质量,v
i
为数据孤岛i的数据计算、存储成本综合参数,μ
i
为数据孤岛i的数据处理成本参数,κ>1为训练参数,σ为精度参数;
[0014]2)基于数据孤岛效用最大化,针对上述效用模型建立目标函数:
[0015][0016]其中,数据孤岛i的决策变量为其参与训练的数据集数量a
i
及数据质量q
i
,即自身的效用最大化策略;基于第二阶段就是数据孤岛之间的纳什均衡博弈:解决第二阶段博弈,
[0017]q
i
的一阶导数:
[0018][0019]a
i
的一阶导数:
[0020][0021]计算海森矩阵:
[0022][0023][0024][0025][0026][0027]求解方程组:
[0028][0029]得到其参与训练的决策变量为:
[0030][0031]进一步的,平台服务器基于自身效果最大化做出相应的总奖励额,具体步骤如下:
[0032]1)建立平台服务器总奖励信息计算模型:
[0033]U=V

R,
ꢀꢀ
(3)
[0034]设定,
[0035]其中,U为平台服务器所获得的效用,V表示模型总估值增量设定为常数,R表示平台服务器所付出的总激励成本,γ为平台决策的平均奖励额,N为数据孤岛的个数;
[0036]2)基于第一阶段平台服务器与数据孤岛的博弈,使得平台服务器效用最大化,建立其目标函数为:
[0037][0038]其中,平台服务器的决策变量为平台提供的平均奖励额γ;
[0039]将上述代入平台服务器目标函数中,得
[0040][0041]γ的一阶导数:
[0042][0043]令一阶导数为零得:
[0044][0045]通过求解可以得出:
[0046][0047]平台服务器方的最优策略值为γ
*
,即实际的总奖励额。
[0048]进一步的,采用数据孤岛决策变量数据集数量a
i
及数据质量q
i
,通过Δθ
i
=σlog
κ
(q
i a
i
)计算特定孤岛对平台模型训练所提升的精度值与贡献值占比;平台服务器根据占比分配激励:
[0049][0050][0051]根据(6)、(7)有:
[0052]本专利技术提出的一种在特定模型精度指标下的两阶段联邦学习激励机制,可以更加同实际相结合,降低了不必要的成本浪费,而且从数据质量与数据数量的角度设计的激励机制更加全面、科学,系统性地提高了联邦学习的训练效率。
附图说明
[0053]图1为本专利技术的总流程示意图;
[0054]图2为特定精度指标下的一次训练的联邦学习模型示意图;
具体实施方式
[0055]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以理解本专利技术,并不用于限定本专利技术。
[0056]参考图1,本专利技术提供了一种特定指标下的联邦学习激励方法,适用于平台服务器与多个数据孤岛间协作,包括如下步骤,所述各个数据孤岛,
[0057]S1:接受平台服务器发布的平台模型精度提升任务指标;
[0058]S2:根据平台服务器发布的模型精度提升目标制定学习策略;
[0059]S3:基于上述学习策略训练获取平台服务器的奖励额;
[0060]S4:获得平台服务器基于对平台模型精度值提升贡献占比分配的总奖励额。
[0061]研究假设主要包括两个:数据孤岛训练数据成本与数据质量、数量有关;数据模型的精度提升也与数据质量、数量相关。采用Stackelberg博弈分析:两阶段博弈的第一阶段就是服务器与数据孤岛之间的主从博弈;两阶段博弈的第二阶段就是数据孤岛之间的纳什均衡博弈,其意义就是,对于任意数据孤岛i,其最终的策略结果就是其效用最大的结果,即任何其他策略的效用都没有其最终的策略效用大。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特定指标下的联邦学习激励方法,适用于平台服务器与多个数据孤岛间协作,其特征在于:包括如下步骤,S1:接受平台服务器发布的平台模型精度提升任务指标;S2:根据平台服务器发布的模型精度提升目标制定学习策略;S3:基于上述学习策略训练获取平台服务器的总奖励额;S4:获得平台服务器基于对平台模型精度值提升贡献占比分配的奖励额。2.如权利要求1所述的一种特定指标下的联邦学习激励方法,其特征在于:步骤S2中,数据孤岛基于自身效用最大化制定学习策略,具体步骤如下,1)建立数据孤岛的效用模型:U
i
=R
i

C
i
,i∈(1,...,N),
ꢀꢀꢀꢀ
(1)设定C
i
=v
i
a
i

i
q
i
,Δθ
i
=σlog
κ
(q
i a
i
);其中,U
i
为数据孤岛i的效用,R
i
表示数据孤岛i获得的奖励,C
i
表示数据孤岛i的训练成本,Δθ
i
表示数据孤岛i对模型训练精度的提升值,a
i
为数据数量,q
i
为数据质量,v
i
为数据孤岛i的数据计算、存储成本综合参数,μ
i
为数据孤岛i的数据处理成本参数,κ>1为训练参数,σ为精度参数;2)基于数据孤岛效用最大化,针对上述效用模型建立目标函数:其中,数据孤岛i的决策变量为其参与训练的数据集数...

【专利技术属性】
技术研发人员:王丽霞王大维王南高强刘晓强教传铭曲睿婷胡非张福良张戈
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1