基于深度强化学习的联邦学习客户端智能选取方法及系统技术方案

技术编号：29491417 阅读：22 留言：0更新日期：2021-07-30 19:03

本发明专利技术公开了一种基于深度强化学习的联邦学习客户端智能选取方法及系统，该方法包括：联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及客户端选择方案从多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给客户端选择智能体，以奖励用于优化更新策略网络；策略网络通过强化学习方法离线训练得到。本发明专利技术可从候选移动边缘设备中选择高质量的设备参与联邦学习，以处理分布式客户端低质量数据问题，以显著提高联邦学习质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的联邦学习客户端智能选取方法及系统
本专利技术涉及大规模分布式边缘智能学习系统的性能优化
，尤其涉及一种基于深度强化学习的联邦学习客户端智能选取方法及系统。
技术介绍
移动边缘设备的普及使得边缘产生的数据快速增长，同时也促进了现代人工智能应用的繁荣发展。然而，由于隐私问题和高昂的数据传输成本，传统的在云端收集大量数据进行集中式模型训练的机制变得不太可取。为了在不泄露隐私的前提下充分利用数据资源，一种新的学习范式应运而生，即联邦学习(FederatedLearning,FL)，它可以让移动边缘设备在不共享其原始数据的情况下协同训练全局模型。在联邦学习中，分布式设备使用自己的数据在本地训练全局模型，然后将模型更新提交给服务器进行模型聚合，聚合后的模型更新用于更新全局模型，然后返回给每个设备以进行下一轮的迭代。全局模型的训练过程便可以通过这种方式以分布式和隐私保护的方式迭代完成。联邦学习尽管在隐私保护方面具有巨大的潜力，但在实现高性能学习质量方面仍然面临着技术挑战。与在数据中心进行训练时数据充足且资源不受限制不同，参与联邦学习的分布式设备通常在硬件条件和数据资源上都受到限制，且存在异质性，这会极大地影响学习性能。例如，由于传感器的缺陷和功率的限制，移动设备难免会收集一些错误标注的低质量数据，导致设备本地学习质量参差不齐。然而，不加区分地聚合低质量的模型更新会反向恶化全局模型的质量。因此，客户端选择，尤其是从候选客户端中选择合适的移动设备参与分布式学习，成为高质量联邦学习的关键。最近，现...

【技术保护点】
1.一种基于深度强化学习的联邦学习客户端智能选取方法，应用于联邦服务市场框架，所述联邦服务市场框架包括一个以一定的预算招募客户端完成联邦学习任务的联邦平台和多个愿意参与联邦学习并向联邦平台提交联邦学习任务的候选客户端；其特征在于，包括以下步骤：/n联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及所述客户端选择方案从所述多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给所述客户端选择智能体，以奖励用于优化更新策略网络；所述策略网络通过强化学习方法离线训练得到。/n

【技术特征摘要】
1.一种基于深度强化学习的联邦学习客户端智能选取方法，应用于联邦服务市场框架，所述联邦服务市场框架包括一个以一定的预算招募客户端完成联邦学习任务的联邦平台和多个愿意参与联邦学习并向联邦平台提交联邦学习任务的候选客户端；其特征在于，包括以下步骤：
联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及所述客户端选择方案从所述多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给所述客户端选择智能体，以奖励用于优化更新策略网络；所述策略网络通过强化学习方法离线训练得到。

2.根据权利要求1所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述客户端选择智能体，为基于编码器-解码器结构的策略网络，编码器将客户端状态映射为中间向量表示，解码器根据所述中间向量表示生成客户端选择方案；所述客户端状态包括数据大小、数据质量和价格。

3.根据权利要求2所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述策略网络的强化学习模型，包括状态、动作、奖励和策略：
状态：状态s＝{x1，x2，…，xn}包含给定联邦学习任务所有候选客户端的特征，每个客户端Ci的特征xi是一个三维向量，用xi＝{qi，di，bi}表示，其中qi和di分别是客户端Ci的数据质量和用于训练的样本数量，bi是客户端Ci完成该学习任务的价格；
动作：采用顺序动作，即客户端选择代理通过采取一系列的动作一一做出客户端选择决策；一个单独的动作只从一组最多N个候选客户端中选出一个客户端；
奖励：将执行客户端选择操作后从联邦服务市场观察到的奖励r作为训练后损失函数值的减少率，即：

其中，F(w)是学习任务测试数据集上的初始全局损失函数值，F(w*)是经...

【专利技术属性】
技术研发人员：张尧学，邓永恒，吕丰，任炬，
申请(专利权)人：清华大学，中南大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人