当前位置: 首页 > 专利查询>济南大学专利>正文

支持双向隐私保护的机器学习安全聚合预测方法及系统技术方案

技术编号:27315760 阅读:61 留言:0更新日期:2021-02-10 09:47
本申请公开了支持双向隐私保护的机器学习安全聚合预测方法及系统,包括:客户端、计算服务器和聚合服务器;计算服务器接收客户端发送的待预测数据的数据份额;所述计算服务器对数据份额进行处理,得到预测结果份额;所述计算服务器对预测结果份额进行盲化处理,得到盲化预测结果份额;所述计算服务器将盲化预测结果份额发送给聚合服务器;所述聚合服务器对盲化预测结果份额进行移除盲化处理和加噪声处理,将结果反馈给客户端。将结果反馈给客户端。将结果反馈给客户端。

【技术实现步骤摘要】
支持双向隐私保护的机器学习安全聚合预测方法及系统


[0001]本申请涉及机器学习
,特别是涉及支持双向隐私保护的机器学习安全聚合预测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。
[0003]在大数据与机器学习等技术的推动下,人工智能技术改变了人们的生活方式,如人脸,语音识别,推荐系统,无人汽车等。但随之而来的是个人隐私信息的滥用,泄露事件频发。机器学习,深度学习算法的性能都依赖于提前收集的大量训练数据,这些数据可能涉及到用户敏感信息,如医疗记录,用户信贷记录等。大量研究表明,机器学习模型极易受到恶意攻击,由于机器学习模型隐含了训练数据的信息,攻击者可以通过分析模型,反向获取到有关训练数据的隐私信息。如Tramer等人通过查询预测API攻击如Amazon,BigML的在线机器学习预测服务(MLaas),并成功提取了与原始模型近似的机器学习模型。Fredrikson等人通过分析分类器输出的概率信息来揭示原始的训练数据,shokri设计的membership inference attack训练多个影子模型判断一条数据是否出现在训练集中。而一旦模型参数或训练数据被泄露,会对于企业和个人造成严重的安全威胁和损失。
[0004]随着机器学习中各种隐私威胁的揭露,大量研究工作致力于解决机器学习下隐私保护问题,如Papernot等人提出了一种隐私保护的机器学习框架,Private Aggregation of Teacher Ensembles(PATE),“教师-学生”半监督迁移模型。PATE基于以下思想,若是在不相交数据集上训练的多个独立模型对于同一输入数据,在输出上具有高度的一致性,则不会泄露相关隐私训练数据。因此该框架通过划分隐私数据集,并在隐私子集上训练多个独立的教师模型,通过满足差分隐私的聚合机制将知识迁移到学生模型上,即通过教师模型给学生的公共数据预测标签,教师模型可被视为是一种机器学习即服务。敌手只能接触到基于公开数据训练的学生模型,因此保护了隐私训练数据的安全。直观上PATE提供了强大的隐私保证,且具有灵活的扩展性,但同时该框架也具有一定的局限性。
[0005]首先,隐私性上,PATE通过一个可信的聚合器聚合多个教师的预测结果,可是现实中并不存在完全可信的实体,若聚合器是恶意或者半诚实的,预测结果直接会被泄露。二是在学生模型没有公开的数据,或者学生模型持有的数据也是隐私的情况下,就无法保证学生模型数据的隐私性。设想一家医院希望训练一个机器学习模型帮助推断患者病情,并通过其他医院(教师)帮助自己(学生)标记数据集,然而由于患者的数据无法直接公开给其他医院(教师),这种情况下PATE框架便无法提供有效的隐私保证。且若敌手腐化学生,通过教师的预测结果反向攻击教师模型(成员推断攻击),教师模型和其训练数据的隐私性也无法保证。上述问题造成了双向的隐私泄露。在性能上,由于PATE框架通过差分隐私提供了隐私保证,但为了控制隐私成本,也限制了可预测数据的量。此外PATE框架只能在本地部署,即教师模型只能在本地提供预测,这就需要教师在预测时保持在线。

技术实现思路

[0006]为了解决现有技术的不足,本申请提供了支持双向隐私保护的机器学习安全聚合预测方法及系统;
[0007]第一方面,本申请提供了支持双向隐私保护的机器学习安全聚合预测方法;
[0008]支持双向隐私保护的机器学习安全聚合预测方法,包括:
[0009]计算服务器接收客户端发送的待预测数据的数据份额;
[0010]所述计算服务器对数据份额进行处理,得到预测结果份额;
[0011]所述计算服务器对预测结果份额进行盲化处理,得到盲化预测结果份额;
[0012]所述计算服务器将盲化预测结果份额发送给聚合服务器;
[0013]所述聚合服务器对盲化预测结果份额进行移除盲化处理和加噪声处理,将结果反馈给客户端。
[0014]第二方面,本申请提供了支持双向隐私保护的机器学习安全聚合预测系统;
[0015]支持双向隐私保护的机器学习安全聚合预测系统,包括:客户端、计算服务器和聚合服务器;
[0016]计算服务器接收客户端发送的待预测数据的数据份额;所述计算服务器对数据份额进行处理,得到预测结果份额;所述计算服务器对预测结果份额进行盲化处理,得到盲化预测结果份额;所述计算服务器将盲化预测结果份额发送给聚合服务器;所述聚合服务器对盲化预测结果份额进行移除盲化处理和加噪声处理,将结果反馈给客户端。
[0017]与现有技术相比,本申请的有益效果是:
[0018]1、提出了一种可以提供双向隐私保护的安全框架,该框架可以保护隐私训练模型(教师模型)和隐私输入(学生输入)的安全性。对于模型提供者,服务器无法获取完整的模型参数,用户无法通过预测结果攻击模型和原始训练数据,对于用户,隐私输入无法被模型持有者和服务器获取。
[0019]2、避免了以往方法通过添加差分隐私进行保护造成的高昂的隐私成本。该框架通过计算预测向量所含信息熵,根据熵值高低动态地对预测向量添加噪声,可有效抵抗如成员推理攻击,且不会影响可预测数据的量。
[0020]3、该框架通过结合SGX技术,确保了计算过程中,即使存在某个服务器被恶意敌手腐化的情况,也无法获得有价值的信息,同时保护了计算过程中的预测输出(教师预测)。
[0021]4、增加了PATE框架的灵活性,服务器在离线阶段接收并存储模型份额,模型持有者(教师)无需加入到在线预测过程中。
附图说明
[0022]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0023]图1为第一个实施例的离线阶段方法流程图;
[0024]图2为第一个实施例的在线预测计算流程图;
[0025]图3为第一个实施例的SecureNN基础协议之间的依赖性;
[0026]图4为第一个实施例的预测结果优化流程图。
具体实施方式
[0027]应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0028]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0029]在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0030]术语解释:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.支持双向隐私保护的机器学习安全聚合预测方法,其特征是,包括:计算服务器接收客户端发送的待预测数据的数据份额;所述计算服务器对数据份额进行处理,得到预测结果份额;所述计算服务器对预测结果份额进行盲化处理,得到盲化预测结果份额;所述计算服务器将盲化预测结果份额发送给聚合服务器;所述聚合服务器对盲化预测结果份额进行移除盲化处理和加噪声处理,将结果反馈给客户端。2.如权利要求1所述的支持双向隐私保护的机器学习安全聚合预测方法,其特征是,所述计算服务器接收客户端发送的待预测数据的数据份额步骤之前,还包括:模型持有方将本地已经训练好的机器学习模型分成若干个模型份额;并将模型份额发送给对应的计算服务器;聚合服务器在可信区中随机生成盲化矩阵,并将盲化矩阵发送给对应的计算服务器。3.如权利要求1所述的支持双向隐私保护的机器学习安全聚合预测方法,其特征是,所述计算服务器接收客户端发送的待预测数据的数据份额;具体步骤包括:第一计算服务器接收客户端发送的待预测数据的第一数据份额;第二计算服务器接收客户端发送的待预测数据的第二数据份额。4.如权利要求3所述的支持双向隐私保护的机器学习安全聚合预测方法,其特征是,所述计算服务器对数据份额进行处理,得到预测结果;具体步骤包括:第一计算服务器基于第一数据份额,计算出第一预测结果;第二计算服务器基于第二数据份额,计算出第二预测结果。5.如权利要求4所述的支持双向隐私保护的机器学习安全聚合预测方法,其特征是,所述计算服务器对预测结果份额进行盲化处理,得到盲化预测结果份额;具体步骤包括:第一计算服务器对第一预测结果份额进行盲化处理,得到第一盲化预测结果份额;第二计算服务器对第二预测结果份额进行盲化处理,得到第二盲化预测结果份额。6.如权利要求4所述的支持双...

【专利技术属性】
技术研发人员:赵川赵埼荆山张波陈贞翔贾忠田
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1