当前位置: 首页 > 专利查询>济南大学专利>正文

一种面向数据隐私保护的机器学习预测方法及系统技术方案

技术编号:24499510 阅读:84 留言:0更新日期:2020-06-13 04:27
本公开提出了一种面向数据隐私保护的机器学习预测方法及系统,方法包括如下步骤:获取加密后的数据;主服务器创建可信区,在可信区对获取的待预测数据与预测模型进行解密;主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器;辅助服务器和主服务器分别进行预测计算获得预测结果份额;主服务器对所有预测结果份额进行秘密重建,将重建后的预测结果份额转发给可信区进行整合并加密,发送至待预测数据提供终端,数据提供终端解密后获得根据模型预测后的预测结果。结合安全多方计算和SGX技术来保护双方隐私安全,解决提供预测服务过程中安全性问题。

A machine learning prediction method and system for data privacy protection

【技术实现步骤摘要】
一种面向数据隐私保护的机器学习预测方法及系统
本公开涉及机器学习相关
,具体的说,是涉及一种面向数据隐私保护的机器学习预测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,并不必然构成在先技术。近年来机器学习等人工智能技术的被广泛应用在各个领域如图像识别,文本处理。但是训练一个模型需要大量的数据,较高的计算资源以及相关专业的知识,对于普通个人和企业来说无疑是困难的。为解决这个问题,各大公司开始提供机器学习即服务,用户无需学习复杂的机器学习算法,直接上传数据选择合适的模型便可获得预测结果。如亚马逊机器学习及服务平台每天可帮助生成数十亿的实时预测。专利技术人发现,虽然预测服务给用户提供了便利,却也给个人隐私带来了威胁。一方面,提供预测数据的用户的数据存在信息泄露的风险:如在预测有关医疗病理数据等涉及个人敏感信息时,服务平台可以直接获取用户隐私信息,这些信息被上传存储在服务器中,若被恶意收集或受到外部攻击,便会造成个人隐私数据泄露。另一方面,模型提供方预测模型所使用的数据存在泄露风险:近几年,越来越多针对机器学习的攻击被提出,如模型反转攻击(modelinversionattack),成员推理攻击(membershipattack)等,攻击者无需直接接触到原始数据,仅通过攻击模型,也可以推测原始敏感数据的属性。若是模型基于隐私数据训练而成,敌手可以伪装成诚实用户,通过恶意查询进行攻击,这无疑给机器学习及服务使用带来了隐患。综上,在提供基于隐私数据的机器学习预测服务过程中,存在双向隐私泄漏隐私的问题,包括用户上传数据有可能被服务提供者窃取,机构提供预测模型有可能被恶意用户攻击的问题,因此,如何实现安全可靠的预测服务在实际应用中具有重要的价值。
技术实现思路
本公开为了解决上述问题,提出了一种面向数据隐私保护的机器学习预测方法及系统,结合安全多方计算和SGX技术来保护双方隐私安全,解决上述提供预测服务过程中安全性问题。为了实现上述目的,本公开采用如下技术方案:一个或多个实施例提供了一种面向数据隐私保护的机器学习预测方法,包括如下步骤:获取数据:主服务器获取加密后的待预测数据与加密后的预测模型;主服务器创建可信区,在可信区对获取的待预测数据与预测模型进行解密;主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器;辅助服务器和主服务器分别根据其获取的数据秘密份额和模型份额进行预测计算获得预测结果份额,辅助服务器将获得预测结果份额加密并发送至主服务器;主服务器获取辅助服务器发送的加密后的预测结果份额,对所有预测结果份额进行秘密重建,将重建后的预测结果份额转发给可信区进行整合并加密,发送至待预测数据提供终端,数据提供终端解密后获得根据模型预测后的预测结果。一个或多个实施例提供了一种面向数据隐私保护的机器学习预测方法,包括如下步骤:获取数据:主服务器获取加密后的待预测数据与加密后的预测模型;主服务器创建可信区,在可信区对获取的待预测数据与预测模型进行解密;主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器;主服务器获取辅助服务器发送的加密后的预测结果份额,对所有预测结果份额进行秘密重建,将重建后的预测结果份额转发给可信区进行整合并加密,发送至待预测数据提供终端。一个或多个实施例提供了一种面向数据隐私保护的机器学习预测方法,包括如下步骤:辅助服务器分别获取数据秘密份额和模型份额;辅助服务器根据各自模型预测份额,根据本地私钥sks解密获得主服务器密钥ks,通过密钥ks解密分别获得预测模型的原始参数和待预测数据;预测计算:辅助服务器根据数据秘密份额和模型份额上进行预测,采用切比雪夫多项式逼近激活函数进行非线性激活函数计算,获得预测结果份额;对预测结果份额采用同态加密算法进行加密:各辅助服务器使用Enclave分发的同态加密的公钥pkep对预测份额结果加密并发送至主服务器。一个或多个实施例提供了一种面向数据隐私保护的机器学习预测系统,包括模型提供终端、待预测数据提供终端以及不合谋的辅助服务器和主服务器;模型提供终端:用于提供机器学习训练模型;待预测数据提供终端:用于提供训练模型的待预测数据;主服务器:执行上述的一种面向数据隐私保护的机器学习预测方法;辅助服务器:执行上述的一种面向数据隐私保护的机器学习预测方法。与现有技术相比,本公开的有益效果为:(1)本公开的机器学习预测方法,该方法提供了可靠的双向安全性:用户隐私数据,预测结果不会被模型提供者和服务器窃取;预测服务机构上传的模型细节不会泄露给主服务器和用户。一方面,在整个计算过程中,用户(待预测数据的提供终端)的隐私数据,模型提供者的预测模型以加密方式上传,只能由可信的Enclave对明文状态下的数据进行操作,处理后的数据以分享值的形式存放在不合谋的服务器中,防止数据被主服务器窃取。预测结果安全性通过同态加密实现,防止重建结果时隐私的泄露,现有一般云环境下密钥通常以明文的形式存放在不可信节点上,难以保证应用程序的安全性,本公开中的密钥存放在可信的Enclave中,以防止来自内部管理人员或特权软件的访问泄露。(2)本公开的技术方案能够减少用户开销:传统利用秘密共享的保护方式需在用户端进行秘密共享再分发给服务器,且在用户本地重建预测结果,这样增加了用户端的计算开销,本公开将秘密共享移动到服务器端进行,通过SGX技术建立可信的Enclave对需保护的数据进行操作,将大量计算开销转移到云服务器上。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。图1是本公开实施例4的系统整体架构图;图2是本公开实施例1的方法流程图;图3是本公开实施例1的共享值加法计算原理图;图4是本公开实施例1的共享值乘法计算原理图;图5是本公开实施例1使用切比雪夫多项式来近似神经网络的第一激活函数的示意图;图6是本公开实施例1中使用切比雪夫多项式来近似神经网络的第二激活函数的示意图;图7是本公开实施例1中的远程认证流程图;图8是本公开实施例1中的主服务器和辅助服务器同态加密流程图;图9是本公开实施例1中的主服务器与用户或模型提供终端的双向加密流程图。具体实施方式:下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在本文档来自技高网
...

【技术保护点】
1.一种面向数据隐私保护的机器学习预测方法,其特征是,包括如下步骤:/n获取数据:主服务器获取加密后的待预测数据与加密后的预测模型;/n主服务器创建可信区,在可信区对获取的待预测数据与预测模型进行解密;主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器;/n辅助服务器和主服务器分别根据其获取的数据秘密份额和模型份额进行预测计算获得预测结果份额,辅助服务器将获得预测结果份额加密并发送至主服务器;/n主服务器获取辅助服务器发送的加密后的预测结果份额,对所有预测结果份额进行秘密重建,将重建后的预测结果份额转发给可信区进行整合并加密,发送至待预测数据提供终端,数据提供终端解密后获得根据模型预测后的预测结果。/n

【技术特征摘要】
1.一种面向数据隐私保护的机器学习预测方法,其特征是,包括如下步骤:
获取数据:主服务器获取加密后的待预测数据与加密后的预测模型;
主服务器创建可信区,在可信区对获取的待预测数据与预测模型进行解密;主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器;
辅助服务器和主服务器分别根据其获取的数据秘密份额和模型份额进行预测计算获得预测结果份额,辅助服务器将获得预测结果份额加密并发送至主服务器;
主服务器获取辅助服务器发送的加密后的预测结果份额,对所有预测结果份额进行秘密重建,将重建后的预测结果份额转发给可信区进行整合并加密,发送至待预测数据提供终端,数据提供终端解密后获得根据模型预测后的预测结果。


2.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法,其特征是:主服务器创建可信区具体为在IntelSGX可信模式下动态申请构建一个可信区Enclave。


3.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法,其特征是:在获取数据步骤之前,待预测数据提供终端和模型提供终端与服务器进行远程认证,建立主服务器的可信区Enclave与待预测数据提供终端、模型提供终端与辅助服务器之间进行密钥共享;
或者,主服务器的可信区Enclave与待预测数据提供终端、模型提供终端之间分别使用RSA加密与AES加密结合的混合加密方式传输数据;
或者,主服务器的可信区Enclave与辅助服务器之间采用Paillier同态加密算法对传输数据进行加解密。


4.如权利要求3所述的一种面向数据隐私保护的机器学习预测方法,其特征是:
主服务器的可信区Enclave与模型提供终端之间使用RSA加密与AES加密结合的混合加密方式传输数据的方法,具体为:
模型提供终端的加密步骤:模型提供终端采用在本地的模型提供终端的AES密钥加密训练模型参数,获得加密后的模型参数密文;
根据主服务器Enclave共享的RSA公钥加密模型提供终端的AES密钥,加密后的训练模型参数和加密后的模型提供终端的AES密钥作为混合密文发送至主服务器,主服务器将密文转发到Enclave中;
主服务器的可信区Enclave解密训练模型的步骤为:Enclave接收到混合密文后,采用本地RSA私钥解密AES密钥解密获得模型提供终端的AES密钥,根据模型提供终端的AES密钥解密加密后的训练模型参数密文获得模型参数;或者
主服务器的可信区Enclave分别与待预测数据提供终端之间使用RSA加密与AES加密结合的混合加密方式传输数据的方法,具体为:
待预测数据提供终端通过待预测数据提供终端的AES密钥加密待预测数据,获得加密后的待预测数据密文;使用主服务器的可信区Enclave的RSA公钥加密待预测数据提供终端的AES密钥,获得待预测数据提供终端的AES密钥的密文;将待预测数据密文和待预测数据提供终端的AES密钥的密文发送到主服务器;
主服务器将密文转发至可信区Enclave,在可信区Enclave本地RSA私钥ske解密获得待预测数据提供终端的AES密钥,再通过待预测数据提供终端的AES密钥解密获得待预测数据。


5.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法,其特征是:
主服务器对解密后的待预测数据与预测模型进行秘密分享,分别获得数据秘密份额和模型份额,并分发至不合谋的辅助服务器和主服务器的方法,具体为:
在主服务器的可信区Enclave解密获取的预测模型,并对模型参数进行加法秘密共享,将其中一份模型份额发送给主服务器,其他模型份额加密后发送至辅助服务器;
接收到待预测数据后,在主服务器的可信区Enclave解密获取的待预测数据,对解密后的待预测数据采用加法秘密共享获得数据秘密份额,将其中的一份数据秘密...

【专利技术属性】
技术研发人员:赵川赵埼荆山张波陈贞翔王吉伟
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1