System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于隐私计算的数据分析方法技术_技高网

一种基于隐私计算的数据分析方法技术

技术编号:44966788 阅读:5 留言:0更新日期:2025-04-12 01:39
本发明专利技术公开了一种基于隐私计算的数据分析方法,涉及数据分析技术领域,包括步骤1,收集需要分析的多元异构数据;步骤2,对预处理后的多元异构数据进行加密,并将加密数据分发至若干个数据持有方;步骤3,数据持有方在联邦学习框架下进行模型训练,通过模型训练的结果判断数据持有方的加密数据是否正确;步骤4,将所有数据持有方训练完成的模型融合至全局模型,步骤5,获取数据分析任务,数据持有方基于安全多方计算协议,使用全局模型协同完成数据分析任务,输出分析结果;步骤6,对分析结果使用公钥进行加密,授权方使用私钥进行解密,得到分析结果。本发明专利技术提高了数据分析的效率,还避免了数据传输过程中的风险,增强了数据的安全性。

【技术实现步骤摘要】

本专利技术涉及数据分析,尤其是指一种基于隐私计算的数据分析方法


技术介绍

1、数据分析技术是一种通过收集、处理、分析和解释数据来获得有用信息的方法。它广泛应用于市场营销、金融分析、医疗诊断、社会科学研究等领域。然而,随着数据量的增加和数据来源的多样化,数据隐私保护成为了一个重要的问题。隐私保护技术是一种保护个人隐私和数据安全的技术,它通过加密、匿名化、数据脱敏等技术手段,防止数据在传输、存储和使用过程中被泄露或滥用。

2、尽管现有的隐私保护技术在一定程度上解决了数据隐私保护的问题,但仍存在一些问题和限制。加密技术是通过将数据加密,使得只有授权用户才能访问和解密数据。但是现有的加密技术在计算效率方面存在瓶颈,使得数据分析和计算速度受到影响。为了提升加密数据的计算效率,可以通过多端协作参与分析模型的训练以及数据分析的工作,但是多端协作参与的方式无法得知自身的加密数据的准确性,对于分析模型的训练效果会产生影响,也会造成数据分析结果与真实结果的偏离。


技术实现思路

1、本专利技术的目的是克服现有技术中的在数据分析过程中引入隐私保护会造成数据分析效率降低、分析模型训练效果较差且数据分析结果的准确性不高的缺点,提供一种基于隐私计算的数据分析方法,通过多端参与协作的方式提升了加密数据的计算效率,同时对于加密数据的正确性进行判断,确保了分析模型的训练效果,提高了数据分析结果的准确性。

2、本专利技术的目的是通过下述技术方案予以实现:

3、一种基于隐私计算的数据分析方法,包括模型构建步骤和数据分析步骤,所述的模型构建步骤包括:

4、步骤1,收集需要分析的多元异构数据,并对多元异构数据进行预处理;

5、步骤2,使用同态加密算法对预处理后的多元异构数据进行加密,并将加密数据分发至若干个数据持有方;

6、步骤3,数据持有方在联邦学习框架下进行模型训练,通过模型训练的结果判断数据持有方的加密数据是否正确,若正确,跳转至步骤4,若不正确,则重新调整同态加密算法的参数确保数据持有方的加密数据正确为止;

7、步骤4,将所有数据持有方训练完成的模型融合至全局模型;

8、所述的数据分析步骤包括:

9、步骤5,获取数据分析任务,若干参与数据分析的数据持有方基于安全多方计算协议,使用全局模型协同完成数据分析任务,输出分析结果;

10、步骤6,对分析结果使用公钥进行加密,授权方使用私钥进行解密,得到分析结果。

11、本方案中采用了同态加密技术和联邦学习框架,确保数据在加密状态下仍然可以进行计算,并且模型训练和数据分析在数据持有方的本地完成,只共享模型参数或更新,而不传输原始数据。这样的设计不仅提高了数据分析的效率,还避免了数据传输过程中的风险,增强了数据的安全性。同时,本方案中对于数据持有方获得的加密数据是否正确,也就是对数据进行加密的过程是否正确进行了判断,确保了分析模型的训练效果,提高了数据分析结果的准确性。

12、作为优选,所述的步骤1中,对多元异构数据进行预处理包括数据清洗、数据格式转换、数据标准化和特征提取,所述的数据清洗包括去除重复数据、修复缺失值和异常值处理,所述的数据格式转换为将不同格式的数据统一为标准格式,所述的数据标准化为对数据进行归一化处理,所述的特征提取为从原始数据中提取对数据分析任务有用的特征。

13、作为优选,在对多元异构数据进行预处理后,还对多元异构数据进行数据增强和降维处理,所述的数据增强为通过随机采样、平移、旋转和/或缩放的方式扩充数据集,用于提升模型的泛化能力,所述的降维处理为采用主成分分析或线性判别分析的方法降低数据维度,进一步减少了计算复杂度,提高了计算效率。

14、作为优选,所述的步骤2中,使用的同态加密算法为paillier加密算法或elgamal加密算法,paillier加密算法适用于加法同态计算,elgamal加密算法适用于乘法同态计算。

15、作为优选,所述的步骤3中,通过模型训练的结果判断数据持有方的加密数据是否正确,具体为:

16、在对模型进行一次训练后,对于单个数据持有方,获取其他数据持有方对加密数据进行模型训练后的计算结果,并与自身的计算结果进行比较,若自身的计算结果与其他数据持有方的计算结果的差异在设定的范围内,则不进行操作;若自身的计算结果与其他数据持有方的计算结果的差异不在设定的范围内,则对自身进行标记;

17、再次对模型进行训练,直到模型训练的次数达到设定的次数,若数据持有方自身进行标记的数量超过设定阈值,则判断该数据持有方的加密数据错误;若数据持有方自身进行标记的数量未超过设定阈值,则判断该数据持有方的加密数据正确。

18、本方案的设计思想是在加密数据对模型进行训练后,不同数据持有方对自身模型的更新值或模型的输出结果应该相同或类似,若存在自身的计算结果与其他数据持有方的计算结果的差异不在设定的范围内,则可能为两种情况,一是自身加密数据存在问题,二是对方的加密数据存在问题,因此对自身进行标记,表明自身的加密数据可能存在问题;在多次对模型进行训练时,设定每次与不同的数据持有方进行计算结果比较,若自身的加密数据不存在问题,则自身进行标记的数量不会超过设定的阈值,判断自身的加密数据正确,若自身的加密数据存在问题,则判断自身的加密数据错误。

19、此外,在多次对模型进行训练时,数据持有方也可以将部分数据输入模型进行训练而不是将所有数据进行训练,这样做可以进一步提升模型的泛化能力,但是这样做有可能会造成选取的部分数据特征值与整体差异较大,导致加密数据进行模型训练时也会存在显著的计算结果的差异,此时传统的加密方法就无法得知加密数据存在的问题是本身数据存在的问题还是加密过程存在问题,而通过本方案的方法,提升了对模型训练结果出现误差的容忍度,只有在自身进行标记的数量超过设定的阈值时才判断加密数据的加密过程存在问题,排除了本身数据特征值差异较大带来的干扰。

20、加密过程存在的问题可能为使用了不符合要求的随机数生成方法导致了加密结果的异常,因此在判断加密过程存在问题后,只需要修正加密操作,重新使用符合要求的随机数生成方法,可以使加密数据重新参与模型训练。

21、作为优选,若在一轮模型训练后,存在有在这一轮被标记的数据持有方,则其他数据持有方在下一轮模型训练时,将被标记的数据持有方的加密数据进行模型训练,将计算结果与前一次的计算结果进行比较,若计算结果的差异在设定的范围内,则不进行操作,若计算结果的差异不在设定的范围内,则再次标记被标记的数据持有方的加密数据。

22、本方案的设计进行了不同模型训练轮次的纵向对比,通过同一个数据持有方对于不同的加密数据进行模型训练,可以辅助判断前一次被标记的数据持有方的加密数据是否存在问题,进一步提升了判断加密数据是否正确的准确性。

23、作为优选,若在一轮模型训练后,存在有在这一轮被标记的数据持有方,则其他数据本文档来自技高网...

【技术保护点】

1.一种基于隐私计算的数据分析方法,其特征是,包括模型构建步骤和数据分析步骤,所述的模型构建步骤包括:

2.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤1中,对多元异构数据进行预处理包括数据清洗、数据格式转换、数据标准化和特征提取,所述的数据清洗包括去除重复数据、修复缺失值和异常值处理,所述的数据格式转换为将不同格式的数据统一为标准格式,所述的数据标准化为对数据进行归一化处理,所述的特征提取为从原始数据中提取对数据分析任务有用的特征。

3.根据权利要求1或2所述的一种基于隐私计算的数据分析方法,其特征是,在对多元异构数据进行预处理后,还对多元异构数据进行数据增强和降维处理,所述的数据增强为通过随机采样、平移、旋转和/或缩放的方式扩充数据集,用于提升模型的泛化能力,所述的降维处理为采用主成分分析或线性判别分析的方法降低数据维度。

4.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤2中,使用的同态加密算法为Paillier加密算法或ElGamal加密算法,Paillier加密算法适用于加法同态计算,ElGamal加密算法适用于乘法同态计算。

5.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤3中,通过模型训练的结果判断数据持有方的加密数据是否正确,具体为:

6.根据权利要求5所述的一种基于隐私计算的数据分析方法,其特征是,若在一轮模型训练后,存在有在这一轮被标记的数据持有方,则其他数据持有方在下一轮模型训练时,将被标记的数据持有方的加密数据进行模型训练,将计算结果与前一次的计算结果进行比较,若计算结果的差异在设定的范围内,则不进行操作,若计算结果的差异不在设定的范围内,则再次标记被标记的数据持有方的加密数据。

7.根据权利要求5所述的一种基于隐私计算的数据分析方法,其特征是,若在一轮模型训练后,存在有在这一轮被标记的数据持有方,则其他数据持有方在下一轮模型训练时,将被标记的数据持有方的加密数据进行模型训练,且再将随机一个其他数据持有方的加密数据进行模型训练,将两者计算结果进行比较,若计算结果的差异在设定的范围内,则不进行操作,若计算结果的差异不在设定的范围内,则再次标记被标记的数据持有方的加密数据。

8.根据权利要求6或7所述的一种基于隐私计算的数据分析方法,其特征是,在进行模型训练时,将自身的加密数据与其他的加密数据进行融合后进行模型训练。

9.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,在模型训练以及输出分析结果中引入差分隐私,添加噪声以保护个体数据且保证整体数据分析的准确性;具体为采用拉普拉斯噪声或高斯噪声,根据隐私预算动态调整噪声强度,以在隐私保护和模型性能之间取得平衡,以平衡数据隐私保护和分析的准确性。

10.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤5中,安全多方计算协议内引入零知识证明协议验证计算结果的准确性。

...

【技术特征摘要】

1.一种基于隐私计算的数据分析方法,其特征是,包括模型构建步骤和数据分析步骤,所述的模型构建步骤包括:

2.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤1中,对多元异构数据进行预处理包括数据清洗、数据格式转换、数据标准化和特征提取,所述的数据清洗包括去除重复数据、修复缺失值和异常值处理,所述的数据格式转换为将不同格式的数据统一为标准格式,所述的数据标准化为对数据进行归一化处理,所述的特征提取为从原始数据中提取对数据分析任务有用的特征。

3.根据权利要求1或2所述的一种基于隐私计算的数据分析方法,其特征是,在对多元异构数据进行预处理后,还对多元异构数据进行数据增强和降维处理,所述的数据增强为通过随机采样、平移、旋转和/或缩放的方式扩充数据集,用于提升模型的泛化能力,所述的降维处理为采用主成分分析或线性判别分析的方法降低数据维度。

4.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤2中,使用的同态加密算法为paillier加密算法或elgamal加密算法,paillier加密算法适用于加法同态计算,elgamal加密算法适用于乘法同态计算。

5.根据权利要求1所述的一种基于隐私计算的数据分析方法,其特征是,所述的步骤3中,通过模型训练的结果判断数据持有方的加密数据是否正确,具体为:

6.根据权利要求5所述的一种基于隐私计算的数据分析方法,其特征是,若在一轮模型训练后,存在...

【专利技术属性】
技术研发人员:林恺丰王光增沈然胡旭光王文张建松许万全鲍卫东屈乐岩陈荣吕齐王健杨怀仁邵美才
申请(专利权)人:国网浙江省电力有限公司金华供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1