一种多方安全计算方法技术

技术编号:28139572 阅读:13 留言:0更新日期:2021-04-21 19:14
本发明专利技术公开了一种多方安全计算方法,包括如下步骤:1、数据对齐;2、B方对数据进行处理,使处理后的数据不能还原成原数据,包括:归一化、标准化、随机加噪声;3、B方将处理后的信息连同ID发送给A方,A方会将B方发送的数据和自身数据相结合,对B方数据用多层Dense建模,A方对自身数据,根据数据的特定形式,可以用Dense、CNN或者RNN建模,模型的目标是自己的目标。本专利的优点在于:在保证数据安全的情况下,解决了现有纵向联邦学习建模受网络传输的影响,导致建模慢和不能建大型模型的问题,本专利只在需求方的本地训练模型,而不会通过网络大量传输训练调参信息,这样既提高了训练速度,又解决了模型性能的瓶颈问题。又解决了模型性能的瓶颈问题。又解决了模型性能的瓶颈问题。

【技术实现步骤摘要】
一种多方安全计算方法


[0001]本专利技术涉及多方安全计算技术和深度学习算法
,具体为一种多方安全计算方法。

技术介绍

[0002]随着大数据技术及AI技术的发展,利用大数据训练人工智能模型的应用越来越多,这些模型能够在企业内部广泛使用。随着AI领域深度学习的发展,模型能够使用的数据越多,模型效果能提升的越好,因此业界提出了联合多方数据共同训练模型,但这时碰到了数据安全问题,各方并不希望自己的数据被对方掌握,尤其有一些数据是个人隐私数据,法律上是不能直接使用的。业界出现了一种联邦学习算法,目标是在保证不透露原始数据的基础上,多方联合建模。
[0003]联邦学习包括横向联邦学习和纵向联邦学习,本专利针对的应用场景同纵向联邦学习一致,简单来说,A方有一批数据和学习目标,B方有另一批数据,这两批数据有一部分数据能够匹配,例如是相同的用户,要求在A不知道B的数据,B也不知道A数据和学习目标的情况下,训练一个AI模型,能够达到A的学习目标。现有的技术无法实现上述功能。

技术实现思路

[0004]为解决上述问题,本专利提供了一种多方安全计算方法。
[0005]一种多方安全计算方法,包括如下步骤:
[0006]1、数据对齐:A方和B方都有自己的数据,但是训练模型的时候每条数据必须是同一个样本的,例如不能把一个人的性别和另一个人的年龄合成一个样本。所以要把A和B的数据做对齐,用MD5的方法,A和B方约定某种很难穷举的数据作为样本ID,例如身份证号+姓名+手机号,A将自己的样本ID转换成MD5,发送给B方,B方也将自己数据的ID转化成MD5,然后看那些能够和A方的MD5样本ID对应上,对应上的这批就是双方共有的样本,B方将共有ID的结果发送给A方,这样就对齐了双方的样本。
[0007]2、B方对数据进行处理,使处理后的数据不能还原成原数据,包括:归一化、标准化、随机加噪声;为数据引入随机性,从而将这么多的数据变成一个随机数,随机数的范围限制在现有数据范围中。
[0008]3、B方将处理后的信息连同ID发送给A方,A方会将B方发送的数据和自身数据相结合,对B方数据用多层Dense建模,A方对自身数据,根据数据的特定形式,可以用Dense、CNN或者RNN建模,模型的目标是自己的目标。
[0009]进一步的,本专利的归一化的具体方法如下:对一列数据x1,x2,

xn,按照下列公式变换:
[0010][0011]min(xi)表示这列数中最小数,max(xi)表示这列数中最大数,对每个x计算,可以
生成新的一列数;
[0012]进一步的,本专利的标准化的具体方法如下:对一列数据x1,x2,

xn,按照下列公式变换:
[0013][0014]其中每项x减去这列数的均值,然后除以标准差,标准差的公式如下:
[0015]标准差公式
[0016][0017]公式描述:公式中数值X1,X2,X3,......XN(皆为实数),其平均值(算术平均值)为μ,标准差为σ。
[0018]进一步的,本专利的随机加噪声的具体方法如下:随机选择预订比例的数据,替换成随机数,随机数的取值范围同原数据,即:大于等于min(x),小于等于max(x)。
[0019]本专利的优点在于:在保证数据安全的情况下,解决了现有纵向联邦学习建模受网络传输的影响,导致建模慢和不能建大型模型的问题,本专利只在需求方的本地训练模型,而不会通过网络大量传输训练调参信息,这样既提高了训练速度,又解决了模型性能的瓶颈问题。
附图说明
[0020]图1为本专利的工作流程示意图
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]如图1所示,一种多方安全计算方法,包括如下步骤:
[0023]1、数据对齐:A方和B方都有自己的数据,但是训练模型的时候每条数据必须是同一个样本的,例如不能把一个人的性别和另一个人的年龄合成一个样本。所以要把A和B的数据做对齐,用MD5的方法,A和B方约定某种很难穷举的数据作为样本ID,例如身份证号+姓名+手机号,A将自己的样本ID转换成MD5,发送给B方,B方也将自己数据的ID转化成MD5,然后看那些能够和A方的MD5样本ID对应上,对应上的这批就是双方共有的样本,B方将共有ID的结果发送给A方,这样就对齐了双方的样本。
[0024]2、B方对数据进行处理,使处理后的数据不能还原成原数据,包括:归一化、标准化、随机加噪声;为数据引入随机性,从而将这么多的数据变成一个随机数,随机数的范围限制在现有数据范围中。
[0025]3、B方将处理后的信息连同ID发送给A方,A方会将B方发送的数据和自身数据相结合,对B方数据用多层Dense建模,A方对自身数据,根据数据的特定形式,可以用Dense、CNN
或者RNN建模,模型的目标是自己的目标。
[0026]进一步的,本专利的归一化的具体方法如下:对一列数据x1,x2,

xn,按照下列公式变换:
[0027][0028]min(xi)表示这列数中最小数,max(xi)表示这列数中最大数,对每个x计算,可以生成新的一列数;
[0029]进一步的,本专利的标准化的具体方法如下:对一列数据x1,x2,

xn,按照下列公式变换:
[0030][0031]其中每项x减去这列数的均值,然后除以标准差,标准差的公式如下:
[0032]标准差公式
[0033][0034]公式描述:公式中数值X1,X2,X3,......XN(皆为实数),其平均值(算术平均值)为μ,标准差为σ。
[0035]进一步的,本专利的随机加噪声的具体方法如下:随机选择预订比例的数据,替换成随机数,随机数的取值范围同原数据,比如:设定一个20%的噪声比例,10个数会有2个数被替换成随机数,即:x1,x2,

x10,对其中的x4和x7进行替换,选择是随机的,替换的数也是一个随机数,该随机数大于等于min(x),小于等于max(x)。
[0036]本专利的优点在于:在保证数据安全的情况下,解决了现有纵向联邦学习建模受网络传输的影响,导致建模慢和不能建大型模型的问题,本专利只在需求方的本地训练模型,而不会通过网络大量传输训练调参信息,这样既提高了训练速度,又解决了模型性能的瓶颈问题。
[0037]对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多方安全计算方法,包括如下步骤:1)、数据对齐:A方和B方都有自己的数据,但是训练模型的时候每条数据必须是同一个样本的,把A和B的数据做对齐,用MD5的方法,A和B方约定很难穷举的数据作为样本ID,A将自己的样本ID转换成MD5,发送给B方,B方也将自己数据的ID转化成MD5,然后看那些能够和A方的MD5样本ID对应上,对应上的这批就是双方共有的样本,B方将共有ID的结果发送给A方,这样就对齐了双方的样本;2)、B方对数据进行处理,使处理后的数据不能还原成原数据,包括:归一化、标准化、随机加噪声;为数据引入随机性,随机数的范围限制在现有数据范围中;3)、B方将处理后的信息连同ID发送给A方,A方会将B方发送的数据和自身数据相结合,对B方数据用多层Dense建模,A方对自身数据,根据数据的特定形式,可以用Dense、CNN或者RNN建模,模型的目标是自己的目标。2.根据权利...

【专利技术属性】
技术研发人员:孙俊
申请(专利权)人:大有秦鼎北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1