一种安全的数据外包机器学习数据分析方法技术

技术编号:16132160 阅读:52 留言:0更新日期:2017-09-01 22:26
本发明专利技术公开了一种安全的数据外包机器学习数据分析方法,由任意树均能化归为二叉树的性质,将训练好的决策树预测模型化归为二叉树,并归纳为一个形为无穷多个乘数项之和的特殊多项式,对模型中每一个数据用RSA加密上传到云平台,再将需要被决策的数据也用RSA加密上传到云平台,利用RSA的乘同态加密性质,将模型的加密数据和需要被决策的加密数据进行相应计算,得到每一个乘数项的密文结果,将结果返回到数据使用者解密,即可得到决策结果,通过将二叉树转化为多项式,使得原本需要多种计算才能实现的决策树,转化为一种计算即可实现,进而使用乘同态算法就能快速完成决策树的机器学习过程,大大降低了在密文上进行决策树这种机器学习算法的复杂程度,提升了计算效率。

【技术实现步骤摘要】
一种安全的数据外包机器学习数据分析方法
本专利技术属于信息安全
,具体涉及一种安全的数据外包机器学习数据分析方法。
技术介绍
随着科技的发展,云平台(CloudPlatforms)的规模巨大、虚拟快捷、通用性强、按需服务并且非常廉价等优越性日益凸显,这使得大数据的高速运算和高效存储成为现实。但一直以来,云平台都存在着巨大的安全隐患,极易出现数据泄露事件。短短几年内,触目惊心的信息泄露事件频出:美国第二大医疗保险公司Anthem丢失8000万个人信息、国内知名求职平台58同城简历数据被廉价售卖等等;数据泄露的根本原因是,用户的个人隐私数据集中储存在云平台的服务器上,这些隐私数据对于云平台完全透明,用户无法对数据的流向和应用进行监管,直接导致无论是云平台遭受外部攻击抑或内部人员非法泄露数据,都会直接造成大量隐私数据泄露的事件发生。这不仅威胁着所有使用者的个人隐私和生命财产安全·也严重打击了公众对云平台的信心,阻碍了云平台的推广应用,限制了云平台的应用场景。为了防止数据泄露事件的发生,对数据加密后再存储在云平台上是公认最有效的方法,但这带来了一个新的问题:加密后的密文毫无特征,云平台无法对其进行有效处理,丧失了它在大数据处理方面的优势,而一旦将数据解密又极易造成隐私数据泄露,甚至带来严重的灾难性后果。为了解决这类问题,同态加密的思想在20世纪70年代被首次提出,并于近些年取得了突破性进展。同态加密能实现密文之间的计算以达到处理明文的目的,即对密文计算出结果后解密等价于先解密成明文后再对明文计算出结果,这种特性对密文运算有着重要意义,其中全同态加密指可对密文进行任意计算,半同态加密是指可对密文进行一种或几种计算,可对密文进行乘法运算的同态加密算法又叫乘同态加密算法。全同态加密功能强大,但是其存取耗时过长,处理复杂度过高,严重拉低了云平台的工作效率,因此大规模的应用前景并不为人看好。相比之下,半同态加密算法不仅可满足基本的数据处理需求,处理速度也达到了可接受的程度,显然是一种更好的选择。在目前机器学习快速发展的背景下,基于半同态加密利用机器学习从密文数据中挖掘有效信息,促成更强的决策能力,可将云平台的优势发挥到极致,但是机器学习所要进行的计算较为复杂,难以用一种计算来实现。
技术实现思路
针对上述现有技术的不足,本专利技术的目的是提供一种安全的数据外包机器学习数据分析方法,解决了现有云平台上数据的安全性和可处理性间的矛盾,即数据加密后上传云平台无法对其进行处理,但解密后处理又将使数据面临泄露风险的问题。本专利技术基于决策树实现了对加密数据进行预测,可高效地对用户上传至云平台的加密数据进行方案决策、统计分析等处理,在保护隐私的同时增加了数据的利用率,可在一些处理大量隐私数据的特殊场所,例如医院、银行等进行广泛应用。为了实现上述目的,本专利技术采用的技术方案是,一种安全的数据外包机器学习数据分析方法,包括以下步骤:步骤一、模型提供者对训练集中数据进行训练构筑一个决策树,然后将决策树转化为二叉树,并将二叉树归为多项式:其中,F(T)为最终的预测结果,i表示从左到右第i条路径,Ci为第i条路径的对应的预测结果,为Ci前的系数,表示第i条路径中的第j个节点的值,k=1时取表示向左走;k=-1时取表示向右走,只有一个子节点时k=0,取1;步骤二、模型提供者将多项式中每一项的系数以及结果分别使用乘同态加密算法加密后上传至云平台;步骤三、模型使用者将待预测参数使用乘同态加密算法公钥加密后上传至云平台,待预测参数为常数c,将其结果表示为E(c);步骤四、云平台接收步骤二和步骤三中上传的密文,使步骤三中密文与步骤二中密文中的每一项分别相乘,得到新的密文数据;步骤五、模型使用者下载步骤六中得到的新的密文数据,并使用乘同态加密算法的私钥解密新的密文数据得到明文数据,其中唯一不为0的一项即为最终预测结果数据;步骤六、模型使用者向模型提供者请求模型对应的信息列表L,并将步骤五中得到的最终预测结果数据与查询信息列表L匹配即可得出该数据对应的预测结论。乘同态加密算法采用RSA公钥加密算法,乘同态加密算法的私钥为RSA公钥加密算法的私钥。步骤四中新的密文数据经乘同态加密算法的私钥解密后得到的明文数据个数与二叉树的末级分支个数相等。步骤一中根据图论原理将决策树转化为二叉树。本专利技术由任意树均能化归为二叉树的性质,将训练好的决策树预测模型化归为二叉树,并归纳为一个形为无穷多个乘数项之和的特殊多项式,对模型中每一个数据用RSA加密上传到云平台。再将需要被决策的数据也用RSA加密上传到云平台,利用RSA的乘同态加密性质,将模型的加密数据和需要被决策的加密数据进行相应计算,得到每一个乘数项的密文结果,将结果返回到数据使用者解密,即可得到决策结果。与现有技术相比,本专利技术至少具有以下有益效果,通过将二叉树转化为多项式,使得原本需要多种计算才能实现的决策树,转化为一种计算即可实现,进而使用乘同态算法就能快速完成决策树的机器学习过程,大大降低了在密文上进行决策树这种机器学习算法的复杂程度,提升了计算效率,解决了现有云平台上数据的安全性和可处理性的矛盾,即数据加密上传云平台无法对其进行处理,但解密后处理又将使数据面临泄露风险的矛盾;本专利技术使云平台在对数据进行决策树处理时不必对密文进行解密操作,而是直接在密文上进行乘同态操作,在保证高效率处理的同时保护了用户隐私数据的安全。附图说明图1为本专利技术的工作流程图;图2为二叉树的结构示意图;图3为三层二叉树的结构示意图;图4为实施例1的二叉树模型图;图5本专利技术的方案与全同态方案耗时对比图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。如图1所示,为本专利技术的工作流程图,具体步骤如下:①训练模型及转化为多项式11.训练决策树模型模型提供者通过训练大量的相关数据构筑一棵决策树;12.决策树转化为多项式121.决策树转化为二叉树根据图论原理,任意树均能化归为二叉树的性质,将步骤11中训练好的决策树预测模型化归为二叉树,如图2所示。122.二叉树化归为多项式将如图2所示的无穷二叉树化归为多项式(2-1)其中,F(T)为最终的预测结果,i表示从左到右第i条路径,Ci为第i条路径的对应的预测结果,为Ci前的系数。表示第i条路径中的第j个节点的值,k=1时取表示向左走;k=-1时取表示向右走,只有一个子节点时k=0,取1,例如为第1条路径中的第3个节点。现举例说明,如图3所示,当二叉树只有三层时,由(2-1)可得多项式(2-2)F(T)=(1-b0)[(1-b1)G(T1)+b1G(T2)]+b0[(1-b2)G(T3)+b2G(T4)](2-2)以最左边的路径为例,当A事件发生时,b0=0,F(T)=(1-b1)G(T1)+b1G(T2),紧接着C事件发生,b1=0,F(T)=G(T1),其余路径同理;从上述举例容易看出,代入数值后的多项式(2-1)中仅有唯一一项不为0,其余项均为0,其中,不为0的那一项数据即为最终的预测结果F(T)的数据。②多项式加密上传模型提供者将多项式中每一项的系数以及结果分别使用RSA公钥加密后上传至云平台,例如,对于式(2-2),需要对(1-b0),(1-b1),G(T1),b1,G(T2),b0,本文档来自技高网
...
一种安全的数据外包机器学习数据分析方法

【技术保护点】
一种安全的数据外包机器学习数据分析方法,其特征在于,包括以下步骤:步骤一、模型提供者对训练集中数据进行训练构筑一个决策树,然后将决策树转化为二叉树,并将二叉树归为多项式:

【技术特征摘要】
1.一种安全的数据外包机器学习数据分析方法,其特征在于,包括以下步骤:步骤一、模型提供者对训练集中数据进行训练构筑一个决策树,然后将决策树转化为二叉树,并将二叉树归为多项式:其中,F(T)为最终的预测结果,i表示从左到右第i条路径,Ci为第i条路径的对应的预测结果,为Ci前的系数,表示第i条路径中的第j个节点的值,k=1时取表示向左走;k=-1时取表示向右走,只有一个子节点时k=0,取1;步骤二、模型提供者将多项式中每一项的系数以及结果分别使用乘同态加密算法加密后上传至云平台;步骤三、模型使用者将待预测参数使用乘同态加密算法公钥加密后上传至云平台,待预测参数为常数c,将其结果表示为E(c);步骤四、云平台接收步骤二和步骤三中上传的密文,使步骤三中密文与步骤二中密文中的每一项分别相乘,得到新的密文数据;步骤五、模型使...

【专利技术属性】
技术研发人员:赵姝畅骆苑新雨郭娟娟马建峰王祥宇常益嘉马莹莹
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1