System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于二级隐私求交的数据保护方法技术_技高网

一种基于二级隐私求交的数据保护方法技术

技术编号:42690192 阅读:2 留言:0更新日期:2024-09-10 12:39
本发明专利技术涉及数据流转领域,具体涉及了一种基于二级隐私求交的数据保护方法。为了解决合作双方在联合数据分析建模中的数据交互安全问题,既要保护双方的数据安全和隐私,又要降低交互成本,给建模工程师提供熟悉的平台和工具。该发明专利技术包括两部分:第一部分是合作双方在各自数据主键上使用隐私泛求交来获取一个大于真正交集的超集,超集的大小可通过算法控制;第二部分是在第一部分得到的主键交集基础上进行,合作双方通过主键交集关联到各自的数据集,经过加密后导入到安全服务器中做二次数据求交得到宽表,从而可以开展联合数据分析和建模工作,最后只有统计数据和模型才能从安全服务器拿出,数据全部销毁。

【技术实现步骤摘要】

本专利技术涉及数据流转领域,具体涉及了一种基于二级隐私求交的数据保护方法


技术介绍

1、在数据流通领域中,经常有两方公司或机构需要做联合数据建模的场景,尽管现在有联邦学习等技术手段可以让双方数据在互不出库的前提下做联邦数据分析和建模,从而实现“数据不动,模型动”的目标,但联邦学习也存在不少缺点和不足之处:1、通信开销大,部署复杂:联邦学习平台需要在多个参与方处部署各种不同功能角色的节点,在建模过程中模型参数更新需要与各参与方之间频繁通信,导致通信开销较大;2、可解释性差:由于模型参数存储在多个参与方处,因此模型的整体运行逻辑不够透明,导致模型的解释性较差;3、算法复杂:相较于传统的集中式学习算法,联邦学习算法相对更为复杂,实现和调试难度较大;4、不符合建模工程师的工作经验和习惯:联邦学习本质上是一种加密的分布式学习模型,建模工程师不熟悉这种建模方式,平台也不能提供建模工程师所需的各种数据分析和建模工具;5、使用成本高:使用商业联邦学习平台存在着价格昂贵的问题。因此以上列出的联邦学习的缺点使得各参与方的技术人员和商务人员比较抵触使用联邦学习来建模,大大降低了双方联合建模的意愿。

2、除了联邦学习平台之外,另一种保障联合数据建模的安全技术和装置就是可信计算节点tee。可信执行环境(tee)作为一种安全硬件技术,能够提供安全的计算环境,保护数据和代码免受恶意软件和物理攻击。然而,tee也存在一些缺点或不足之处:1、复杂性:设计、实现和维护tee技术需要相当高的技术要求,对开发者和管理员来说具有一定的复杂性;2、性能开销:使用tee技术可能会引入额外的性能开销,包括内存消耗、计算延迟等,影响系统整体性能;3、依赖度高:因为tee技术依赖于特定的硬件支持,所以在不具备相应硬件支持的设备上无法实现tee,限制了其适用范围;4、可扩展性限制:部分tee实现可能存在可扩展性限制,使得在大规模部署时难以管理和维护;5、标准化与互操作性:国内缺少可信认证标准,不同厂商的tee解决方案可能存在标准不统一或互操作性问题,导致跨平台应用的难度;6、使用成本高:使用商业tee装置存在着价格昂贵的问题。以上列出的tee的种种不足之处也大大降低了各参与方使用tee来做联合建模的意愿。


技术实现思路

1、本专利技术所解决的技术问题在于提供一种基于二级隐私求交的数据保护方法,能够解决双方公司不愿意使用联邦学习平台和可信计算节点tee来联合建模的场景,从而促成更多的公司或机构开展联合建模。

2、本专利技术提供的基础方案:一种基于二级隐私求交的数据保护方法,本专利技术针对在数据流转中需要双方利用各自数据联合建模并且都不愿意使用联邦学习和tee的场景,首先通过双方数据主键做隐私泛求交,然后各自用泛求交主键去检索各自的数据集,把关联到的数据集加密后导入到安全服务器中进行二次精准求交的方式来保障在数据安全的前提下开展联合数据分析和建模。在现实业务场景中,两方公司或机构有开展数据合作来优化或开拓业务的场景,但受制于联邦学习和tee的高成本和部署使用的不方便而无法真正推动落地,本专利技术可以解决这个痛点。

3、本专利技术采用以下描述的技术方案来实现:一种基于二级隐私求交的数据保护方法,包括以下步骤:

4、从s1到s9为本专利技术的第一阶段隐私泛求交步骤,第一阶段的目的为了在不安全的环境中通过隐私泛求交得到联合建模双方的数据主键交集的一个可控的超集,这是本专利技术中最关键的专利技术点,对于不相干的外人来说,即使偷拿到了求交过程中的所有数据主键也没法破解,对于联合建模双方来说,在求交过程中也无法破解除了这个超集之外的其他数据主键。具体来说,在这个阶段中,双方约定数据主键,对主键做隐私泛求交算法来获得双方数据交集的一个主键超集,这个超集比双方真正的主键交集大,但比全集要小得多,数据泛求交有两个优势:首先泛求交之后的结果数据集大大缩小了数据联合建模所需的数据量,从而不需要把双方所有的业务数据都导入到后续的服务器中;其次双方公司或机构都不想让对方完全了解自己的业务结构,如果这个交集很精确,则数据量较小的一方会认为在合作公司面前暴露了自己的业务结构。这两个优势可以极大地打消双方的疑虑,促成双方的合作。隐私泛求交可以基于椭圆曲线算法和布隆过滤器来设计,或者基于rsa算法和布隆过滤器来设计,超集的大小可以通过调节布隆过滤器的参数来做比较精确的控制。

5、如说明书附图图1所示:

6、s1:合作双方约定好要求交的数据主键,数据加密的算法,该数据加密算法需要满足二次加密的条件,即使用2个不同的密钥加密二次,最终的密文和密钥使用的先后顺序无关;

7、s2:合作双方约定好隐私泛求交的膨胀系数f,该膨胀系数f定义为泛求交的交集基数/真实交集的基数。布隆过滤器具有可控的假阳误差率e,可以根据预设的膨胀系数来推导出布隆过滤器所需的假阳误差率e,计算公式为e=f-1,即膨胀系数减去1;

8、s3:合作双方根据估算的布隆过滤器假阳误差率e和双方将要求交的数据集大小之和n,估算布隆过滤器二进制向量的长度m和散列函数的数量k,其中m等于「-1.44nlog2e」向上取整,k等于「0.6931m/n」向上取整;

9、s4:合作方a生成数据加密算法的密钥ka,使用该密钥来加密己方数据集的主键集d(a)=[x1,x2,...,xn],得到加密后的己方密文主键集ea(a)=[ea(x1),ea(x2),...,ea(xn)],保留好明文主键集d(a)和密文主键集ea(a)之间一一对应的顺序映射关系,再把加密数据主键集ea(a)发送给合作方b;

10、s5:合作方b生成数据加密算法的密钥kb,使用该密钥来加密己方数据集的主键集d(b)=[y1,y2,...,ym],得到加密后的己方密文主键集eb(b)=[eb(y1),eb(y2),...,eb(ym)],然后将密文主键集eb(b)映射到布隆过滤器的二进制向量中,用bf(eb(b))来表示;

11、s6:合作方b接收到合作方a的密文主键集ea(a)后,使用密钥kb作二次加密,得到二次加密后的密文主键集eab(a)=[eab(x1),eab(x2),...,eab(xn)],然后将s5步骤中的布隆过滤器二进制向量bf(eb(b))和合作方a的二次密文主键集eab(a)发送给合作方a;

12、s7:合作方a接收到来自合作方b的二次密文主键集eab(a)和布隆过滤器二进制向量bf(eb(b))之后,先使用己方密钥a解密,从而得到仅用合作方b的密钥加密的密文主键集eb(a),然后遍历密文主键集eb(a)中的每一个密文主键值,去布隆过滤器二进制向量bf(eb(b))中查询是否命中,如果命中则把该密文主键值放入泛求交密文集eb(a∩b)中;

13、s8:合作方a的密文主键集eb(a)和明文主键集d(a)这两个集合中的元素位置存在着一一对应的关系,因此合作方a利用这个位置映射关系从eb(a∩b)得到泛求交明文主键集d(a)∩d(b),然后根据泛求交明文本文档来自技高网...

【技术保护点】

1.一种基于二级隐私求交的数据保护方法,其特征在于:包括以下步骤:隐私泛求交步骤和数据求交步骤,隐私泛求交步骤包括以下步骤:

2.根据权利要求1所述的一种基于二级隐私求交的数据保护方法,其特征在于:S15:如果合作方A完成一次数据分析和建模,在退出安全服务器前,先删除双方的明文数据交集M(A)∩M(B),然后使用己方密钥pka或keya对己方明文数据M(A)加密,得到密文数据集Ca(A),然后通知合作方B登录上线,合作方B登录后使用己方密钥pkb或keyb对己方明文数据M(B)加密,得到密文数据集Cb(B),同样,如果合作方B完成一次数据分析和建模,则也要进行上述操作步骤。

【技术特征摘要】

1.一种基于二级隐私求交的数据保护方法,其特征在于:包括以下步骤:隐私泛求交步骤和数据求交步骤,隐私泛求交步骤包括以下步骤:

2.根据权利要求1所述的一种基于二级隐私求交的数据保护方法,其特征在于:s15:如果合作方a完成一次数据分析和建模,在退出安全服务器前,先删除双方的明文数据交...

【专利技术属性】
技术研发人员:汤寒林徐旭彬肖斌王大亮
申请(专利权)人:贵州数据宝网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1