一种面向数据隐私保护的机器学习预测方法及系统技术方案

技术编号：24499510 阅读：84 留言：0更新日期：2020-06-13 04:27

本公开提出了一种面向数据隐私保护的机器学习预测方法及系统，方法包括如下步骤：获取加密后的数据；主服务器创建可信区，在可信区对获取的待预测数据与预测模型进行解密；主服务器对解密后的待预测数据与预测模型进行秘密分享，分别获得数据秘密份额和模型份额，并分发至不合谋的辅助服务器和主服务器；辅助服务器和主服务器分别进行预测计算获得预测结果份额；主服务器对所有预测结果份额进行秘密重建，将重建后的预测结果份额转发给可信区进行整合并加密，发送至待预测数据提供终端，数据提供终端解密后获得根据模型预测后的预测结果。结合安全多方计算和SGX技术来保护双方隐私安全，解决提供预测服务过程中安全性问题。

A machine learning prediction method and system for data privacy protection

全部详细技术资料下载

【技术实现步骤摘要】
一种面向数据隐私保护的机器学习预测方法及系统
本公开涉及机器学习相关
，具体的说，是涉及一种面向数据隐私保护的机器学习预测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，并不必然构成在先技术。近年来机器学习等人工智能技术的被广泛应用在各个领域如图像识别，文本处理。但是训练一个模型需要大量的数据，较高的计算资源以及相关专业的知识，对于普通个人和企业来说无疑是困难的。为解决这个问题，各大公司开始提供机器学习即服务，用户无需学习复杂的机器学习算法，直接上传数据选择合适的模型便可获得预测结果。如亚马逊机器学习及服务平台每天可帮助生成数十亿的实时预测。专利技术人发现，虽然预测服务给用户提供了便利，却也给个人隐私带来了威胁。一方面，提供预测数据的用户的数据存在信息泄露的风险：如在预测有关医疗病理数据等涉及个人敏感信息时，服务平台可以直接获取用户隐私信息，这些信息被上传存储在服务器中，若被恶意收集或受到外部攻击，便会造成个人隐私数据泄露。另一方面，模型提供方预测模型所使用的数据存在泄露风险：近几年，越来越多针对机器学习的攻击被提出，如模型反转攻击(modelinversionattack)，成员推理攻击(membershipattack)等，攻击者无需直接接触到原始数据，仅通过攻击模型，也可以推测原始敏感数据的属性。若是模型基于隐私数据训练而成，敌手可以伪装成诚实用户，通过恶意查询进行攻击，这无疑给机器学习及服务使用带来了隐患。综上，在提供基于隐私数据的机器学习预测服务过程中，存在双向隐私...

【技术保护点】
1.一种面向数据隐私保护的机器学习预测方法，其特征是，包括如下步骤：/n获取数据：主服务器获取加密后的待预测数据与加密后的预测模型；/n主服务器创建可信区，在可信区对获取的待预测数据与预测模型进行解密；主服务器对解密后的待预测数据与预测模型进行秘密分享，分别获得数据秘密份额和模型份额，并分发至不合谋的辅助服务器和主服务器；/n辅助服务器和主服务器分别根据其获取的数据秘密份额和模型份额进行预测计算获得预测结果份额，辅助服务器将获得预测结果份额加密并发送至主服务器；/n主服务器获取辅助服务器发送的加密后的预测结果份额，对所有预测结果份额进行秘密重建，将重建后的预测结果份额转发给可信区进行整合并加密，发送至待预测数据提供终端，数据提供终端解密后获得根据模型预测后的预测结果。/n

【技术特征摘要】
1.一种面向数据隐私保护的机器学习预测方法，其特征是，包括如下步骤：
获取数据：主服务器获取加密后的待预测数据与加密后的预测模型；
主服务器创建可信区，在可信区对获取的待预测数据与预测模型进行解密；主服务器对解密后的待预测数据与预测模型进行秘密分享，分别获得数据秘密份额和模型份额，并分发至不合谋的辅助服务器和主服务器；
辅助服务器和主服务器分别根据其获取的数据秘密份额和模型份额进行预测计算获得预测结果份额，辅助服务器将获得预测结果份额加密并发送至主服务器；
主服务器获取辅助服务器发送的加密后的预测结果份额，对所有预测结果份额进行秘密重建，将重建后的预测结果份额转发给可信区进行整合并加密，发送至待预测数据提供终端，数据提供终端解密后获得根据模型预测后的预测结果。

2.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法，其特征是：主服务器创建可信区具体为在IntelSGX可信模式下动态申请构建一个可信区Enclave。

3.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法，其特征是：在获取数据步骤之前，待预测数据提供终端和模型提供终端与服务器进行远程认证，建立主服务器的可信区Enclave与待预测数据提供终端、模型提供终端与辅助服务器之间进行密钥共享；
或者，主服务器的可信区Enclave与待预测数据提供终端、模型提供终端之间分别使用RSA加密与AES加密结合的混合加密方式传输数据；
或者，主服务器的可信区Enclave与辅助服务器之间采用Paillier同态加密算法对传输数据进行加解密。

4.如权利要求3所述的一种面向数据隐私保护的机器学习预测方法，其特征是：
主服务器的可信区Enclave与模型提供终端之间使用RSA加密与AES加密结合的混合加密方式传输数据的方法，具体为：
模型提供终端的加密步骤：模型提供终端采用在本地的模型提供终端的AES密钥加密训练模型参数，获得加密后的模型参数密文；
根据主服务器Enclave共享的RSA公钥加密模型提供终端的AES密钥，加密后的训练模型参数和加密后的模型提供终端的AES密钥作为混合密文发送至主服务器，主服务器将密文转发到Enclave中；
主服务器的可信区Enclave解密训练模型的步骤为：Enclave接收到混合密文后，采用本地RSA私钥解密AES密钥解密获得模型提供终端的AES密钥，根据模型提供终端的AES密钥解密加密后的训练模型参数密文获得模型参数；或者
主服务器的可信区Enclave分别与待预测数据提供终端之间使用RSA加密与AES加密结合的混合加密方式传输数据的方法，具体为：
待预测数据提供终端通过待预测数据提供终端的AES密钥加密待预测数据，获得加密后的待预测数据密文；使用主服务器的可信区Enclave的RSA公钥加密待预测数据提供终端的AES密钥，获得待预测数据提供终端的AES密钥的密文；将待预测数据密文和待预测数据提供终端的AES密钥的密文发送到主服务器；
主服务器将密文转发至可信区Enclave，在可信区Enclave本地RSA私钥ske解密获得待预测数据提供终端的AES密钥，再通过待预测数据提供终端的AES密钥解密获得待预测数据。

5.如权利要求1所述的一种面向数据隐私保护的机器学习预测方法，其特征是：
主服务器对解密后的待预测数据与预测模型进行秘密分享，分别获得数据秘密份额和模型份额，并分发至不合谋的辅助服务器和主服务器的方法，具体为：
在主服务器的可信区Enclave解密获取的预测模型，并对模型参数进行加法秘密共享，将其中一份模型份额发送给主服务器，其他模型份额加密后发送至辅助服务器；
接收到待预测数据后，在主服务器的可信区Enclave解密获取的待预测数据，对解密后的待预测数据采用加法秘密共享获得数据秘密份额，将其中的一份数据秘密...

【专利技术属性】
技术研发人员：赵川，赵埼，荆山，张波，陈贞翔，王吉伟，
申请(专利权)人：济南大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人