隐私保护的在线深度学习系统及方法技术方案

技术编号:38907353 阅读:20 留言:0更新日期:2023-09-25 09:26
本申请涉及一种隐私保护的在线深度学习系统及方法,可用于联邦学习。方法包括:通过客户端,对所持有的训练数据进行HE安全协议下的加密处理并将加密后训练数据发送给服务器端;通过服务器端,利用自该客户端接收的加密后训练数据对深度学习模型进行训练,并且在训练该深度学习模型的训练过程中,对该深度学习模型所包括的至少一个线性层的线性成分和偏置成分分别进行DP安全协议下的加密处理和该HE安全协议下的加密处理,从而得到该深度学习模型的加密后梯度;和基于该加密后梯度获得该深度学习模型的加密后模型参数,以及利用该加密后模型参数来更新该深度学习模型。如此有助于克服推广在线深度学习技术时遇到的在隐私保护方面的障碍。方面的障碍。方面的障碍。

【技术实现步骤摘要】
隐私保护的在线深度学习系统及方法


[0001]本申请涉及数据安全和隐私保护
,尤其涉及隐私计算和联邦学习
,具体涉及一种隐私保护的在线深度学习系统及方法。

技术介绍

[0002]隐私保护计算(Privacy

Preserving Computing)通常理解为在保护隐私信息安全前提下进行数据相关计算及分析和挖掘数据价值。与隐私保护计算比较接近的概念是隐私计算(Privacy Computing)。隐私计算的概念可以宽泛地理解为涵盖了在处理各种信息时对其中涉及的隐私信息进行各种操作从而在隐私信息的整个生命周期提供保护的计算理论和方法。隐私保护计算和隐私计算各自的概念的定义和范畴随着理论研究和应用技术发展而发生变化,并且相应的计算框架、计算模型、计算理论、算法及应用技术等也在迅速发展,但是都以隐私保护作为主要目的,例如保护各个参与方的隐私安全信息等。多种关键技术在隐私保护方面有重要应用,例如联邦学习(Federated Learning,FL)、安全多方计算(Multi

Party Computation,MPC)等。
[0003]人工智能技术和深度学习技术取得了巨大的发展,如在智能交通、医疗健康、图像处理、自然语言处理等领域取得了广泛应用。在这些应用中也涉及到隐私保护,特别是随着相关法律法规加强了对用户个人隐私信息如用户交通出行数据和电商交易数据等的保护,使得在深度学习应用中越来越需要重视隐私保护方面。另一方面,随着交互频率增加和模型复杂度增加,深度学习应用例如商品推荐系统等对通讯开销、算力以及存储空间等都提出了更高的要求。这样就使得很多深度学习应用一般通过在线的方式例如在线学习服务来完成相应的训练过程和推理过程,例如持有训练数据和/或推理用输入数据的参与方不具备足够的数据处理能力和数据存储能力而只能依赖提供这些处理能力的在线学习服务提供方。这里,常见的在线学习服务是通过云服务特别是公有云服务来实现。但是通过在线的方式如通过公有云服务器来完成深度学习模型的训练或者推理,面临隐私信息泄露的风险例如上传到公有云服务器的私有数据或者云服务器计算得到的计算结果都可能被泄露到未授权方甚至被恶意篡改。虽然可以通过上述的FL和MPC等隐私保护相关技术来加强对隐私信息的保护,但是这些技术往往会增加通信开销并对算力和存储空间提出挑战,例如1比特的原始信息经过加密后可能变成1024比特等。另外出于实际需要,模型参数需要频繁的更新也因此要求缩短训练过程所耗费的时间资源,而现有的隐私保护技术往往使得训练过程太耗时。并且现有的隐私保护相关技术往往要求在线学习服务的提供方或者用于各方数据的整合方如公有云服务器要满足可信第三方或者非竞争性(non

colluding)的要求,但是这一点使得无法很好利用现成的各种云资源。现有技术的这些不足给推广在线深度学习技术造成了障碍例如使得现有的在线深度学习技术难以在满足隐私保护在安全性方面的要求同时提供便于商业化落地的产品解决方案,使得在线深度学习应用很难在包括如隐私保护、通信开销、算力和存储空间要求、云服务提供方的安全性要求等多个方面都实现较好的效果。
[0004]为此,需要一种隐私保护的在线深度学习系统及方法,在例如智能交通、医疗健康、图像处理、自然语言处理等领域,使得持有私有数据的各个参与方能通过在线方式如公有云服务来协同训练深度学习模型、利用训练好的模型进行推理以及满足模型更新需求,并且这样的在线深度学习系统及方法,不仅提供了隐私保护如提供了对训练数据、推理数据、模型参数的隐私保护,而且不要求公有云服务提供方或者数据整合方必须满足可信第三方或者非竞争性的要求从而有利于调用丰富的现成云资源,同时还在训练过程和推理过程中都具有较低的或者说改良后的对通信开销、算力和存储空间方面的要求也因此具有较好的整体运算效率和资源利用效率,进而克服了推广在线深度学习技术时遇到的在隐私保护方面的障碍,有助于提供兼顾如隐私保护、通信开销、算力和存储空间要求、云服务提供方的安全性要求等多个方面的便于商业化落地的产品解决方案。

技术实现思路

[0005]第一方面,本申请实施例提供了一种隐私保护的在线深度学习方法。所述在线深度学习方法包括:通过客户端,对该客户端所持有的训练数据进行同态加密HE安全协议下的加密处理并将加密后训练数据发送给服务器端;通过服务器端,利用自该客户端接收的加密后训练数据对深度学习模型进行训练,并且在训练该深度学习模型的训练过程中,对该深度学习模型所包括的至少一个线性层的线性成分和偏置成分分别进行差分隐私DP安全协议下的加密处理和该HE安全协议下的加密处理,从而得到该深度学习模型的加密后梯度;和基于该加密后梯度获得该深度学习模型的加密后模型参数,以及利用该加密后模型参数来更新该深度学习模型。
[0006]第一方面所描述的技术方案,提供了隐私保护的同时豁免了对服务器端为可信第三方或者非竞争性的要求从而有利于调用丰富的现成云资源,具有较低的对通信开销、算力和存储空间方面的要求也因此具有较好的整体运算效率和资源利用效率,进而克服了推广在线深度学习技术时遇到的在隐私保护方面的障碍,有助于提供兼顾如隐私保护、通信开销、算力和存储空间要求、云服务提供方的安全性要求等多个方面的便于商业化落地的产品解决方案。
[0007]根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,该加密后梯度包括该加密后梯度的线性成分和该加密后梯度的偏置成分,其中,基于该加密后梯度获得该深度学习模型的加密后模型参数,包括:通过该服务器端对该加密后梯度的偏置成分进行整合得到该加密后模型参数的偏置成分,以及通过该客户端对该加密后梯度的线性成分进行解密及加噪处理得到该加密后模型参数的线性成分。
[0008]根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,利用该加密后模型参数来更新该深度学习模型,包括:通过该服务器端,利用该加密后模型参数的线性成分和该加密后模型参数的偏置成分,更新该深度学习模型。
[0009]根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,该深度学习模型包括多个线性层,其中对该深度学习模型所包括的至少一个线性层的线性成分和偏置成分分别进行该DP安全协议下的加密处理和该HE安全协议下的加密处理,包括:对该多个线性层的每一个线性层各自的线性成分和偏置成分分别进行该DP安全协议下的加密处理和该HE安全协议下的加密处理。
[0010]根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述多个线性层包括卷积层和/或全连接层,该深度学习模型还包括至少一个非线性层,该至少一个非线性层包括池化层和/或激活层。
[0011]根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述多个线性层的每一个线性层指示了线性转换,所述多个线性层所指示的线性转换包括卷积运算和/或全连接运算,该深度学习模型还包括至少一个非线性层,该至少一个非线性层指示了非线性转换,该至少一个非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种隐私保护的在线深度学习方法,其特征在于,所述在线深度学习方法包括:通过客户端,对该客户端所持有的训练数据进行同态加密HE安全协议下的加密处理并将加密后训练数据发送给服务器端;通过服务器端,利用自该客户端接收的加密后训练数据对深度学习模型进行训练,并且在训练该深度学习模型的训练过程中,对该深度学习模型所包括的至少一个线性层的线性成分和偏置成分分别进行差分隐私DP安全协议下的加密处理和该HE安全协议下的加密处理,从而得到该深度学习模型的加密后梯度;和基于该加密后梯度获得该深度学习模型的加密后模型参数,以及利用该加密后模型参数来更新该深度学习模型。2.根据权利要求1所述的在线深度学习方法,其特征在于,该加密后梯度包括该加密后梯度的线性成分和该加密后梯度的偏置成分,其中,基于该加密后梯度获得该深度学习模型的加密后模型参数,包括:通过该服务器端对该加密后梯度的偏置成分进行整合得到该加密后模型参数的偏置成分,以及通过该客户端对该加密后梯度的线性成分进行解密及加噪处理得到该加密后模型参数的线性成分。3.根据权利要求2所述的在线深度学习方法,其特征在于,利用该加密后模型参数来更新该深度学习模型,包括:通过该服务器端,利用该加密后模型参数的线性成分和该加密后模型参数的偏置成分,更新该深度学习模型。4.根据权利要求3所述的在线深度学习方法,其特征在于,该深度学习模型包括多个线性层,其中对该深度学习模型所包括的至少一个线性层的线性成分和偏置成分分别进行该DP安全协议下的加密处理和该HE安全协议下的加密处理,包括:对该多个线性层的每一个线性层各自的线性成分和偏置成分分别进行该DP安全协议下的加密处理和该HE安全协议下的加密处理。5.根据权利要求4所述的在线深度学习方法,其特征在于,所述多个线性层包括卷积层和/或全连接层,该深度学习模型还包括至少一个非线性层,该至少一个非线性层包括池化层和/或激活层。6.根据权利要求4所述的在线深度学习方法,其特征在于,所述多个线性层的每一个线性层指示了线性转换,所述多个线性层所指示的线性转换包括卷积运算和/或全连接运算,该深度学习模型还包括至少一个非线性层,该至少一个非线性层指示了非线性转换,该至少一个非线性层所指示的非线性转换包括池化运算和/或激活函数。7.根据权利要求5所述的在线深度学习方法,其特征在于,该客户端所持有的训练数据包括用于更新已训练的该深度学习模型的训练数据。8.根据权利要求5所述的在线深度学习方法,其特征在于,该深度学习模型的推理过程包括:针对所述多个线性层的每一个线性层,通过数据应用方生成与该线性层对应的第一随机向量和通过该服务器端生成与该线性层对应的第二随机向量,该数据应用方和该服务器端一起基于该第一随机向量和该第二随机向量构建对应该线性层的秘密分享安全协议;通过该数据应用方,将输入数据加密后发送给该服务器端;和按照所述多个线性层在该深度学习的推理过程中的调用次序逐层调用所述多个线性层,并且根据对应被调用的线性层的秘密分享安全协议,通过与被调用的线性层对应的第一随机向量加密被调用的线性层的输入以及通过与被调用的线性层对应的第二随机向量
加密被调用的线性层的输出。9.根据权利要求8所述的在线深度学习方法,其特征在于,该深度学习模型的应用场景包括以下至少之一:金融、政务、智能交通、医疗健康、图像处理、自然语言处理和隐私计算,该深度学习模型的推理过程用于完成该深度学习模型的应用场景下的一个或者多个任务。10.根据权利要求8所述的在线深度学习方法,其特征在于,根据对应被调用的线性层的秘密分享安全协议,通过与被调用的线性层对应的第一随机向量加密被调用的线性层的输入以及通过与被调用的线性层对应的第二随机向量加密被调用的线性层的输出,包括:将与被调用的线性层对应的第一随机向量和被调用的线性层的输入进行相加运算或者相减运算从而加密被调用的线性层的输入,通过被调用的线性层的线性成分对加密后的被调用的线性层的输入进行线性转换后加上与被调用的线性层对应的第二随机向量,从而加密被调用的线性层的输出。11.根据权利要求10所述的在线深度学习方法,其特征在于,该数据应用方与该客户端不属于同一平台、不属于同一系统、不在同一地理位置或者不属于同一网络。12.根据权利要求8所述的在线深度学习方法,其特征在于,该数据应用方包括多个输入数据,该深度学习模型的推理过程包括针对该多个输入数据的每一个输入数据,构建所述多个线性层中的每一个线性层的针对该输入数据的对应该线性层的秘密分享安全协议。...

【专利技术属性】
技术研发人员:李晋杰
申请(专利权)人:深圳致星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1