一种协作式地训练神经网络模型的方法,包括:从多个用户的子集接收本地更新。本地更新与神经网络模型的数据集的一个或多个子集相关。神经网络模型的本地组件标识该一个或多个子集中一数据点所属的子集。基于来自用户子集的本地更新来为神经网络模型计算全局更新。网络的每个部分的全局更新被聚集以训练神经网络模型。络模型。络模型。
【技术实现步骤摘要】
【国外来华专利技术】联合混合模型
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月3日提交的题为“FEDERATED MIXTURE MODELS(联合混合模型)”的希腊专利申请No.20200100308的优先权,其公开内容通过援引全部明确纳入于此。
[0003]公开领域
[0004]本公开的各方面一般涉及神经网络,且尤其涉及用于使用联合或协作式学习来训练跨多个用户分布的神经网络模型的框架。
[0005]背景
[0006]人工神经网络可以包括诸群互连的人工神经元(例如,神经元模型)。人工神经网络可以是计算设备或表示为要由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)(诸如深度卷积神经网络(DCN))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。
[0007]联合学习(federated learning)是一种用于协作式地训练跨多个用户的神经网络而无需在中心位置收集数据的办法。联合学习的一项挑战是数据异构性。即,考虑到不同用户可能具有不同的数据特性(例如,不同地理区域中的不同动物群/植物群),可能难以使用单个全局模型来训练神经网络。
[0008]概述
[0009]本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。
[0010]在本公开的一方面,提供了一种方法。该方法包括:从多个用户的子集接收神经网络模型的本地更新。本地更新中的每个本地更新与数据集的一个或多个子集相关并包括对该数据集中每个本地更新与其相关的一个或多个子集的指示。该方法还包括:基于来自该多个用户的子集的本地更新来计算该神经网络模型的全局更新。附加地,该方法包括:向该多个用户的子集传送该全局更新。
[0011]在本公开的一方面,提供了一种装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。(诸)处理器被配置成:从多个用户的子集接收神经网络模型的本地更新。本地更新中的每个本地更新与数据集的一个或多个子集相关并包括对该数据集中每个本地更新与其相关的一个或多个子集的指示。(诸)处理器还被配置成:基于来自该多个用户的子集的本地更新来计算该神经网络模型的全局更新。另外,(诸)处理器被配置成:向该多个用户的子集传送该全局更新。
[0012]在本公开的一方面,提供了一种设备。该设备包括:用于从多个用户的子集接收神经网络模型的本地更新的装置。本地更新中的每个本地更新与数据集的一个或多个子集相关并包括对该数据集中每个本地更新与其相关的一个或多个子集的指示。该设备还包括:用于基于来自该多个用户的子集的本地更新来计算该神经网络模型的全局更新的装置。附加地,该设备包括:用于向该多个用户的子集传送该全局更新的装置。
[0013]在本公开的一方面,提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有程序代码。该程序代码由处理器执行并包括:用于从多个用户的子集接收神经网络模型的本地更新的代码。本地更新中的每个本地更新与数据集的一个或多个子集相关并包括对该数据集中每个本地更新与其相关的一个或多个子集的指示。该程序代码还包括:用于基于来自该多个用户的子集的本地更新来计算该神经网络模型的全局更新的代码。附加地,该程序代码包括:用于向该多个用户的子集传送该全局更新的代码。
[0014]在本公开的一方面,提供了一种方法。该方法包括:从服务器接收神经网络模型。该神经网络模型可经由一组专门化神经网络模型跨多个客户端协作式地训练。每个专门化神经网络与第一数据集的子集相关联。该方法还包括:生成包括一个或多个本地示例的本地数据集。附加地,该方法包括:基于与该本地数据集相关联的特性来选择一个或多个专门化模型。此外,该方法包括:通过基于所选一个或多个专门化模型和该本地数据集微调该神经网络模型来生成个性化模型。
[0015]在本公开的一方面,提供了一种装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。(诸)处理器被配置成:从服务器接收神经网络模型。该神经网络模型可经由一组专门化神经网络模型跨多个客户端协作式地训练。每个专门化神经网络与第一数据集的子集相关联。(诸)处理器还被配置成:生成包括一个或多个本地示例的本地数据集。另外,(诸)处理器被配置成:部分地基于与该本地数据集相关联的特性来选择一个或多个专门化模型。此外,(诸)处理器被配置成:通过基于所选一个或多个专门化模型和该本地数据集微调该神经网络模型来生成个性化模型。
[0016]在本公开的一方面,提供了一种设备。该设备包括:用于从服务器接收神经网络模型的装置。该神经网络模型可经由一组专门化神经网络模型跨多个客户端协作式地训练。每个专门化神经网络与第一数据集的子集相关联。该设备还包括:用于生成包括一个或多个本地示例的本地数据集的装置。附加地,该设备包括:用于部分地基于与该本地数据集相关联的特性来选择一个或多个专门化模型的装置。此外,该设备包括:用于通过基于所选一个或多个专门化模型和该本地数据集微调该神经网络模型来生成个性化模型的装置。
[0017]在本公开的一方面,提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有程序代码。该程序代码由处理器执行并包括:用于从服务器接收神经网络模型的代码。该神经网络模型可经由一组专门化神经网络模型跨多个客户端协作式地训练。每个专门化神经网络与第一数据集的子集相关联。该程序代码还包括:用于生成包括一个或多个本地示例的本地数据集的代码。附加地,该程序代码包括:用于部分地基于与该本地数据集相关联的特性来选择一个或多个专门化模型的代码。此外,该程序代码包括:用于通过基于所选一个或多个专门化模型和该本地数据集微调该神经网络模型来生成个性化模型的代码。
[0018]各方面一般包括如基本上在本文参照附图和说明书描述并且如附图和说明书所解说的方法、装置(设备)、系统、计算机程序产品、非瞬态计算机可读介质、用户装备、基站、无线通信设备和处理系统。
[0019]前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以力图使下面的详细描述可被更好地理解。将描述附加的特征和优势。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同目的的其他结构的基础。此类等效构造并不背离所附权利要求书的范围。所公开的概念的特性在其组织和操作方法两方面以及相关联的
优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的,而非定义对权利要求的限定。
[0020]附图简述
[0021]在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
[0022]图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。
[0023]图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。<本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:从服务器接收神经网络模型,所述神经网络模型能够经由一组专门化神经网络模型跨多个客户端协作式地训练,每个专门化神经网络与第一数据集的子集相关联;生成包括一个或多个本地示例的本地数据集;部分地基于与所述本地数据集相关联的特性来选择一个或多个专门化模型;以及通过基于所选一个或多个专门化模型和所述本地数据集微调所述神经网络模型来生成个性化模型。2.如权利要求1所述的方法,进一步包括:接收输入;以及基于所述输入经由所述个性化模型来生成推断。3.如权利要求2所述的方法,其中,所述第一数据集包括非独立且相同分布的(non
‑
i.i.d.)数据。4.一种方法,包括:从多个用户的子集接收神经网络模型的本地更新,所述本地更新中的每个本地更新与数据集的一个或多个子集相关并包括对所述数据集中每个本地更新与其相关的一个或多个子集的指示;基于来自所述多个用户的子集的所述本地更新来计算所述神经网络模型的全局更新;以及向所述多个用户的子集传送所述全局更新。5.如权利要求4所述的方法,其中,所述全局更新是通过聚集所述本地更新来计算的。6.如权利要求4所述的方法,其中,所述神经网络模型包括多个独立神经网络模型。7.如权利要求6所述的方法,其中,所述多个用户中的每个用户基于本地数据的数据特性而具有所述多个独立神经网络模型的不同混合。8.如权利要求4所述的方法,其中,所述神经网络模型包括选通函数,所述选通函数对所述一个或多个子集之间的决策边界进行建模并向所述多个独立神经网络模型中的每一者指派数据点。9.如权利要求4所述的方法,其中,所述数据集包括非独立且相同分布的(non
‑
i.i.d.)数据。10.一种装置,包括:存储器;以及耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置成:从服务器接收神经网络模型,所述神经网...
【专利技术属性】
技术研发人员:M,
申请(专利权)人:美国高通技术公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。