一种面向多方协同的贝叶斯分类器安全生成系统及方法技术方案

技术编号:24169677 阅读:24 留言:0更新日期:2020-05-16 02:32
本发明专利技术属于信息安全技术领域,公开了一种安全多方贝叶斯分类器生成系统及方法,包括系统初始化,密钥分发中心生成系统安全参数、分布式数据加密密钥和聚合数据解密密钥;本地训练数据加密,并将加密之后的数据发送给模型生成方;模型生成方对收到的各密文训练数据进行聚合计算,生成密文全局训练数据,并使用聚合数据解密密钥对密文全局训练数据进行解密,获取贝叶斯分类器训练参数;贝叶斯分类模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率,生成贝叶斯分类器。本发明专利技术可用于分布式场景中贝叶斯分类器的生成与训练,能够在确保模型生成方获取高精度贝叶斯分类器的同时,实现对多数据中心敏感数据的安全聚合与隐私保护。

【技术实现步骤摘要】
一种面向多方协同的贝叶斯分类器安全生成系统及方法
本专利技术属于信息安全
,尤其涉及一种面向多方协同的贝叶斯分类器安全生成系统及方法。
技术介绍
目前,最接近的现有技术:随着互联网数据量的快速增长和信息技术的不断发展,机器学习受到了人们的广泛关注。朴素贝叶斯分类器作为一种典型的机器学习算法,能够通过学习建模提供精确高效的数据分类服务,在金融、医疗、交通等诸多领域得到了广泛应用。在传统的贝叶斯数据分类服务中,模型生成方通过聚合数据中心的数据训练分类器,进而提供数据分类服务。上述过程中,各数据中心的敏感数据(例如样本数据、统计分析数据等)并未得到保护,存在敏感信息泄露的风险。为了找出一种解决上述问题的方法,人们提出了一些解决方案,其中:中国人民大学申请的专利“一种机器学习中的数据隐私保护方法和系统”(申请号CN201810487937.4申请公布号CN108717514A)公开了一种基于保序加密技术的隐私保护机器学习模型,能够保护机器学习中原始数据、模型数据以及待预测数据的隐私性。该专利技术的不足之处在于:保序加密用于多维数据时,但是由于保序加密密文维持所对应明文的大小关系,会导致泄露明文的顺序以及不同维度数据之间的相关性,存在安全性不足的问题。东北大学申请的专利“支持隐私保护的决策树分类服务系统及方法”(申请号CN201910142676.7申请公布号CN110008717A)公开了一种基于ElGamal同态加密技术的隐私保护决策树分类方法。该方法通过构造密文数据大小比较算法,实现了决策树分类过程中分类器参数以及待测数据的隐私性。该专利技术的不足之处在于:决策树分类器构建需要复杂数学运算,所提出的方法未能确保该过程中原始数据的安全性,仅对数据分类过程中的敏感数据进行了隐私保护。综上所述,现有技术存在的问题是:现有的数据分类隐私保护方案,存在安全性不足,不能支持分类器训练过程中数据保护等问题。同时,大多方案并未针对数据分布式存储场景,构造安全多数据源分类器生成方法。解决上述技术问题的难度:现有隐私保护方案不支持复杂运算,且存在安全性与可用性相互制约的问题。同时,现存同态加密技术难以用于分布式计算场景,不能为多数据源提供有效隐私保护。解决上述技术问题的意义:针对分布式场景中的数据安全问题,设计多方协同的数据分类器生成算法,能够确保敏感数据的安全有效使用,促进数据挖掘技术与机器学习算法的快速发展。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种面向多方协同的贝叶斯分类器安全生成系统及方法。本专利技术是这样实现的,一种面向多方协同的贝叶斯分类器安全生成方法,所述面向多方协同的贝叶斯分类器安全生成方法包括以下步骤:第一步,系统初始化,密钥分发中心选择数据处理过程中所需要的安全参数,生成Paillier加密系统和系统所需安全参数;将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;结合Paillier加密系统私钥和系统安全参数,为模型生成方生成聚合数据解密密钥;第二步,本地训练数据加密,各数据中心对采集到的个体样本数据进行处理,生成本地训练数据;各数据中心使用分布式数据加密密钥对本地训练数据进行加密计算,并将加密之后的数据发送给模型生成方;第三步,密文训练数据处理,模型生成方对收到的各密文训练数据进行聚合计算,生成密文全局训练数据,模型生成方使用聚合数据解密密钥对密文全局训练数据进行解密,获取贝叶斯分类器训练参数;第四步,贝叶斯分类器训练,模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率,生成贝叶斯分类器。进一步,所述第一步系统初始化具体包括:1)密钥分发中心选择一个安全系数κ,该安全系数κ越大,则系统的安全性能越好,同时系统的计算开销也越大;2)密钥分发中心通过执行Paillier加密系统的密钥生成函数Gen(κ),得到Pailiier加密系统的公钥PK=(N,g)以及私钥SK=(λ,μ);3)密钥分发中心在中选取大素数p′以及随机数s,计算h=gp′modN2;4)密钥分发中心将N拆分为m个数(N1,N2,…Nm),满足条件其中m为参与计算的数据中心的个数。之后针对每一个Ni,计算5)密钥分发中心公开系统安全参数(N,g,h,κ),将聚合数据解密密钥(λ,μ,p′)发送给模型生成方,分布式数据加密密钥发送给各数据中心。进一步,所述第二步本地训练数据加密具体包括:1)数据中心收集到的个体样本数据表示为两个向量以及其中为特征向量,表示该个体所具有的特征属性,为类别向量,代表该个体所属类别;则数据中心所收集到的样本数据表示为以及其中k=1,2,…,l(i),l(i)为该数据中心收集到的样本数量;2)针对每一个样本数据,数据中心计算其中s=1,2,…,u,t=1,2,…,v,针对k=1,2,…,l(i),将向量和中每一维进行求和,得到以及并合成本地训练数据如下:3)对任意的数据中心执行加密操作如下:其中,r为在中选取的随机数。之后数据中得到加密的本地训练数据如下:4)数据中心将数据将发送给模型生成方。进一步,所述第三步密文数据处理具体包括:1)模型生成方判断是否收到m个数据中心的密文本地训练数据,若接收到所有数据中心的数据,执行如下聚合运算:其中,s=1,2,…,u,t=1,2,…,v。之后模型生成方得到密文全局训练数据如下:2)对任意的对任意的模型生成方执行解密计算如下:其中,模型生成方得到贝叶斯分类器训练参数;进一步,所述第四步贝叶斯分类器训练具体包括:根据计算得到的贝叶斯分类器训练参数,模型生成方训练贝叶斯分类器如下:Pr(xs=0|yt=1)=1-Pr(xs=1|yt=1)Pr(xs=0|yt=0)=1-Pr(xs=1|yt=0)。本专利技术的另一目的在于提供一种实施所述面向多方协同的贝叶斯分类器安全生成方法的面向多方协同的贝叶斯分类器安全生成系统,所述面向多方协同的贝叶斯分类器安全生成系统包括:密钥分发中心,用于选择数据处理过程中所需要的安全参数,生成Paillier加密系统和系统所需安全参数;将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;结合Paillier加密系统私钥和系统安全参数,为模型生成方生成聚合数据解密密钥;数据中心,用于对采集到的个体样本数据进行处理,生成本地训练数据;使用分布式数据加密密钥对本地训练数据进行加密计算,并将加密之后的数据发送给模型生成方;模型生成方,用于对收到的各密文训练数据进行聚合计算,生成密文全局训练数据;使用聚合数据解密密钥对密文全局训练数据进行解密,获取贝叶斯分类器训练参数。本文档来自技高网
...

【技术保护点】
1.一种面向多方协同的贝叶斯分类器安全生成方法,其特征在于,所述面向多方协同的贝叶斯分类器安全生成方法包括以下步骤:/n第一步,系统初始化,密钥分发中心选择数据处理过程中所需要的安全参数,生成Paillier加密系统和系统所需安全参数;将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;结合Paillier加密系统私钥和系统安全参数,为模型生成方生成聚合数据解密密钥;/n第二步,本地训练数据加密,各数据中心对采集到的个体样本数据进行处理,生成本地训练数据;各数据中心使用分布式数据加密密钥对本地训练数据进行加密计算,并将加密之后的数据发送给模型生成方;/n第三步,密文训练数据处理,模型生成方对收到的各密文训练数据进行聚合计算,生成密文全局训练数据,模型生成方使用聚合数据解密密钥对密文全局训练数据进行解密,获取贝叶斯分类器训练参数;/n第四步,贝叶斯分类器训练,模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率,生成贝叶斯分类器。/n

【技术特征摘要】
1.一种面向多方协同的贝叶斯分类器安全生成方法,其特征在于,所述面向多方协同的贝叶斯分类器安全生成方法包括以下步骤:
第一步,系统初始化,密钥分发中心选择数据处理过程中所需要的安全参数,生成Paillier加密系统和系统所需安全参数;将Paillier加密系统公钥进行拆分,为各数据中心生成分布式数据加密密钥;结合Paillier加密系统私钥和系统安全参数,为模型生成方生成聚合数据解密密钥;
第二步,本地训练数据加密,各数据中心对采集到的个体样本数据进行处理,生成本地训练数据;各数据中心使用分布式数据加密密钥对本地训练数据进行加密计算,并将加密之后的数据发送给模型生成方;
第三步,密文训练数据处理,模型生成方对收到的各密文训练数据进行聚合计算,生成密文全局训练数据,模型生成方使用聚合数据解密密钥对密文全局训练数据进行解密,获取贝叶斯分类器训练参数;
第四步,贝叶斯分类器训练,模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率,生成贝叶斯分类器。


2.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法,其特征在于,所述第一步系统初始化具体包括:
1)密钥分发中心选择一个安全系数κ,该安全系数κ越大,则系统的安全性能越好,同时系统的计算开销也越大;
2)密钥分发中心通过执行Paillier加密系统的密钥生成函数Gen(κ),得到Pailiier加密系统的公钥PK=(N,g)以及私钥SK=(λ,μ);
3)密钥分发中心在中选取大素数p′以及随机数s,计算h=gp′modN2;
4)密钥分发中心将N拆分为m个数(N1,N2,…Nm),满足条件其中m为参与计算的数据中心的个数,之后针对每一个Ni,计算
5)密钥分发中心公开系统安全参数(N,g,h,κ),将聚合数据解密密钥(λ,μ,p′)发送给模型生成方,分布式数据加密密钥发送给各数据中心。


3.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法,其特征在于,所述第二步本地训练数据加密具体包括:
1)数据中心收集到的个体样本数据表示为两个向量以及其中为特征向量,表示该个体所具有的特征属性,为类别向量,代表该个体所属类别;则数据中心所收集到的样本数据表示为以及其中k=1,2,…,l(i),l(i)为该数据中心收集到的样本数量;
2)针对每一个样本数据,数据中心计算其中针对k=1,2,…,l(i),将向量和中每一维进行求和,得到以及并合成本地训练数据如下:









3)对任意的数据中心执行加密操作如下:



其中,r为在中选取的随机数,之后数据中得到加密的本地训练数据如下:









4)数据中心将数据将发送给模型生成方。


4.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法,其特征在于,所述第三步密文数据处理具体包括:
1)模型生成方判断是否收到m个数据中心的密文本地训练数据,若接收到所有数据中心的数据,执行如下聚合运算:









其中,s=1,2,…,u,t=1,2,…,v,之后模型生成方得到密文全局训练数据如下:






【专利技术属性】
技术研发人员:李昊王枫为朱辉李晖赵家奇寇笑语
申请(专利权)人:西安交通大学医学院第一附属医院西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1