一种面向数据挖掘的隐私保护方法及系统技术方案

技术编号:38055111 阅读:13 留言:0更新日期:2023-06-30 11:20
本发明专利技术公开了一种面向数据挖掘的隐私保护方法及系统,该隐私保护方法包括:基于逻辑斯蒂算法计算数据集中所有的特征的影响权重值;基于特征的影响权重值进行影响度等级划分;基于梯度响应算法K

【技术实现步骤摘要】
一种面向数据挖掘的隐私保护方法及系统


[0001]本专利技术涉及数据挖掘
,具体涉及一种面向数据挖掘的隐私保护方法及系统。

技术介绍

[0002]随着人工智能、机器学习技术的飞速发展,数据挖掘改变了人们生活的方方面面,体现在社会、教育、经济等方面的改革。各行各业、大大小小的企业采集用户的数据,并从中挖掘分析出有用信息,从而实现各自的商业目的或者更好的服务用户。但是,由于用户数据中包含了大量的敏感隐私信息,数据挖掘也带来了隐私泄漏的风险,一旦这些隐私信息落入到目的不纯的不法分子的手上,用于违法用途,如网络诈骗、篡改信息等违法行为,将会严重损害用户的利益。
[0003]Dwork在2006年提出了差分隐私模型,预设攻击者可以掌握最大背景知识,即攻击者可以拥有除被攻击目标隐私信息外的所有数据记录信息。差分隐私模型是建立在坚实的数学证明基础上的,能够通过参数ε量化隐私保护水平。目前差分隐私技术成为规避对攻击者所掌握背景知识假设的有效方法和数据隐私保护研究的热点。
[0004]虽然差分隐私技术在数据挖掘分析中有着广泛的应用和重要的研究价值,但是差分隐私技术的保护程度和数据分析的准确性往往是一对矛盾的关系。引入差分隐私通常会对数据集中加入一些噪音或者扰动,实现对用户的隐私数据进行保护;但是引入不当的噪音和扰动往往会对后续数据挖掘分析结果的精确度产生不同程度的影响。

技术实现思路

[0005]针对现有技术中存在的不足之处,本专利技术提供一种面向数据挖掘的隐私保护方法及系统,其可在隐私保护和数据数据分析精确度之间达到一个平衡,在对用户的隐私数据进行保护的同时,可提高数据分析结果的精确度。
[0006]本专利技术公开了一种面向数据挖掘的隐私保护方法,包括:
[0007]基于逻辑斯蒂算法计算数据集中所有的特征的影响权重值;
[0008]基于特征的影响权重值进行影响度等级划分;
[0009]基于梯度响应算法K

RR算法,对多维特征隐私保护处理;在多维特征隐私保护过程中,基于特征影响度等级以及特征维度,对用户自定义的隐私预算进行动态分配;
[0010]基于不同影响度等级,构建隐私预算损失计算;
[0011]基于随机响应算法,对二维特征隐私保护处理;在二维特征隐私保护过程中,基于特征影响度等级,对扰动概率进行动态分配;
[0012]观察扰动前和扰动后特征的空间分布形态;
[0013]验证前后模型分析精确度。
[0014]作为本专利技术的进一步改进,所述基于逻辑斯蒂算法计算数据集中所有的特征的影响权重值,包括:
[0015]获取数据集;
[0016]基于逻辑斯蒂回归算法计算每个特征对数据分析结果的影响权重值;
[0017]对影响权重值进行归一化处理,映射至[0,1]区间。
[0018]作为本专利技术的进一步改进,所述基于逻辑斯蒂回归算法计算每个特征对数据分析结果的影响权重值,包括:
[0019]初始化损失函数cost中各个特征的加权系数w;其中,
[0020][0021]y
*
代表数据特征原始的标签,z=w0+w
i
x1+w2x2+w3x3+.......+w
n
x
n
,其中x
i
代表下标为i的特征,w
i
代表下标为i的x
i
特征的加权系数;
[0022]更新各个特征的加权系数w,式中,alpha代表学习率,代表cost对w变量求导;
[0023]迭代更新,取损失函数cost最小时的加权系数作为特征的影响权重值。
[0024]作为本专利技术的进一步改进,影响度等级的划分标准为:
[0025]影响权重值处于[0,0.3]区间划分为影响度低;
[0026]影响权重值处于(0.3,0.6]区间划分为影响度适中;
[0027]影响权重值处于(0.6,1]区间划分为影响度高。
[0028]作为本专利技术的进一步改进,所述基于梯度响应算法K

RR算法,对多维特征隐私保护处理;包括:
[0029]以概率响应真实结果,以概率响应其余k

1个结果中的一种,使其在保护隐私的同时尽可能多的保留原始数据中的信息;其中,k表示数据维度大小,ε表示隐私预算。
[0030]作为本专利技术的进一步改进,所述基于特征影响度等级以及特征维度,对用户自定义的隐私预算进行动态分配;包括:
[0031]分别统计影响度低的特征变量总数s1以及记录每个特征变量的维度构成集合K1={k
11,
k
12,
....,k
1i
}、影响度适中的特征变量总数s2以及记录每个特征变量的维度构成集合K2={k
21,
k
22,
....,k
2j
}、影响度高的特征变量总数s3以及记录每个特征变量的维度构成集合K3={k
31,
k
32,
....,k
3k
},形成集合S
t
={s1,s2,s3};
[0032]影响度低的特征变量分配到的总隐私预算影响度高的特征变量分配到的总隐私预算影响度适中的特征变量分配到的总隐私预算ε
sum2
=ε
sum


sum1

sum3
),其中Max()函数表示求集合中最大值,Min()函数表示求集合中最小值;
[0033]影响度低的每个特征变量分配的隐私预算为ε
i
为其中k
i
表示该特征变量对应维度大小,影响度适中的每个特征变量分配的隐私预算为ε
j
为影响度
高的每个特征变量分配的隐私预算为ε
k

[0034]作为本专利技术的进一步改进,隐私预算损失计算的公式为:
[0035][0036]ε
ij
=ε
i(j

1)

P
ij
[0037]其中,ε
i
表示特征变量t
i
动态分配到的总隐私预算,w
i
表示特征变量t
i
的权重归一化数值,j∈(1,2,3,.....k),ε
j
表示对特征变量t
i
第j单次分析查询的预算,P
ij
表示特征变量t
i
第j单次分析查询的总预算;
[0038]根据隐私预算损失计算,得出特征变量t
i
第j次单次分析查询剩余总隐私预算为ε
ij

[0039]作为本专利技术的进一步改进,基于特征影响度等级,对扰动概率进行动态分配;包括:
[0040]针对影响度高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向数据挖掘的隐私保护方法,其特征在于,包括:基于逻辑斯蒂算法计算数据集中所有的特征的影响权重值;基于特征的影响权重值进行影响度等级划分;基于梯度响应算法K

RR算法,对多维特征隐私保护处理;在多维特征隐私保护过程中,基于特征影响度等级以及特征维度,对用户自定义的隐私预算进行动态分配;基于不同影响度等级,构建隐私预算损失计算;基于随机响应算法,对二维特征隐私保护处理;在二维特征隐私保护过程中,基于特征影响度等级,对扰动概率进行动态分配;观察扰动前和扰动后特征的空间分布形态;验证前后模型分析精确度。2.如权利要求1所述的隐私保护方法,其特征在于,所述基于逻辑斯蒂算法计算数据集中所有的特征的影响权重值,包括:获取数据集;基于逻辑斯蒂回归算法计算每个特征对数据分析结果的影响权重值;对影响权重值进行归一化处理,映射至[0,1]区间。3.如权利要求2所述的隐私保护方法,其特征在于,所述基于逻辑斯蒂回归算法计算每个特征对数据分析结果的影响权重值,包括:初始化损失函数cost中各个特征的加权系数w;其中,y
*
代表数据特征原始的标签,z=w0+w1x1+w2x2+w3x3+.......+w
n
x
n
,其中x
i
代表下标为i的特征,w
i
代表下标为i的x
i
特征的加权系数;更新各个特征的加权系数式中,alpha代表学习率,代表cost对w变量求导;迭代更新,取损失函数cost最小时的加权系数作为特征的影响权重值。4.如权利要求2所述的隐私保护方法,其特征在于,影响度等级的划分标准为:影响权重值处于[0,0.3]区间划分为影响度低;影响权重值处于(0.3,0.6]区间划分为影响度适中;影响权重值处于(0.6,1]区间划分为影响度高。5.如权利要求4所述的隐私保护方法,其特征在于,所述基于梯度响应算法K

RR算法,对多维特征隐私保护处理;包括:以概率响应真实结果,以概率响应其余k

1个结果中的一种,使其在保护隐私的同时尽可能多的保留原始数据中的信息;其中,k表示数据维度大小,ε表示隐私预算。6.如权利要求5所述的隐私保护方法,其特征在于,所述基于特征影响度等级以及特征维度,对用户自定义的隐私预算进行动态分配;包括:分别统计影响度低的特征变量总数s1以及记录每个特征变量的维度构成集合K1={k
11,
k
12,
....,k
1i
}、影响度适中的特征变量总数s2以及记录每个特征变量的维度构成集合K2={k
21,
k
22,
....,k
2j
}、影响度高的特征变量总数s3以及记录每个特征变量的维度构成集合K3={k
31,
k
32,
....,k
3k
},形成集合S
t
={s1,s2,s3};影响度低的特征变量分配到的总隐私预算影响度高的特征变量分配到的总隐私预算影响度适中的特征变量分配到的总隐私预算ε
sum2
=ε
sum


sum1

sum3
),其中Max()函数表示求集合中最大值,Min()函数表示求集合中最小值;影响度低的每个特征变量分配的隐私预算为ε
i<...

【专利技术属性】
技术研发人员:何泾沙朱治明朱娜斐
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1