一种基于多参数扰动的数据挖掘隐私保护方法技术

技术编号:15746857 阅读:132 留言:0更新日期:2017-07-03 03:04
隐私保护是当前数据挖掘领域中一个十分重要的研究方向,其目的是在不精确访问真实数据的条件下,得到潜在的模式和规律。本发明专利技术提出了一种多参数扰动的数据挖掘隐私保护方法,该方法用三个随机参数对原始数据进行干扰,采用矩阵分块的方法划分转换矩阵,并在求转换矩阵逆矩阵时,只需求出逆矩阵的首行元素而不用求出所有逆矩阵元素,消除了重构项集支持度的指数级复杂度;利用集合运算原理,用已知数据项推出未知数据项,简化了计算合成项集支持数的过程,结合项集支持度重构公式,从而还原出原始数据的频繁项集。本发明专利技术用于关联规则数据挖掘隐私保护效果显著,既可以有效地挖掘频繁项集,又具有更高的计算效率。

A data mining privacy protection method based on multi parameter perturbation

Privacy preserving is one of the most important research fields in data mining field. The purpose of privacy preserving is to obtain potential patterns and rules under imprecise access to real data. The invention provides a multi parameter perturbation of privacy preserving data mining methods, the method of interference of the original data with three random parameters, block partition method using matrix transformation matrix and inverse matrix in calculating transformation matrix, only a first element inverse matrix instead of find all the elements of the inverse matrices that eliminates the exponential reconstruction itemsets support complexity; using the set operation principle, introduced the unknown data item with known data, simplify the calculation of the number of itemsets support synthesis process, with the support of the item sets and the original reconstruction formula, frequent item of original data set. The invention is used for association rule data mining and has remarkable privacy protection effect, and can effectively mine frequent itemsets and have higher computing efficiency.

【技术实现步骤摘要】
一种基于多参数扰动的数据挖掘隐私保护方法
本专利技术涉及数据挖掘的隐私保护领域,具体涉及一种基于多参数扰动的数据挖掘隐私保护方法。
技术介绍
近年来,随着信息技术的飞速发展,各行各业都积累了大量的数据。如何从这些数据中挖掘出更深层次的信息,成为当务之急。数据挖掘作为一种有效的数据分析技术,可以发现海量数据中隐含的知识和规律。然而,在使用一般的挖掘方法过程中,容易泄露隐私数据。因此,在进行数据挖掘的同时保护隐私数据是数据挖掘领域亟待解决的问题。目前,数据挖掘隐私保护按策略上主要分为数据干扰和查询限制两大类。数据干扰就是对原始数据进行随机变换、数据离散化和添加噪声等方法进行干扰,从而保护隐私数据,再对干扰后的数据进行挖掘,得到所需的模式和规律;查询限制就是通过对原始数据进行隐藏、抽样和划分等方式,避免数据挖掘者获得完整的原始数据,然后再通过概率统计或者分布式计算的方法得到所需的模式和规律。但是,这两种策略都存在固有的不足。数据干扰策略中,所有干扰的数据均与真实的原始数据直接相关;而查询限制策略中,所有提供的数据都是真实的原始数据,这些都会降低对隐私数据的保护程度。现行针对数据扰乱策略的相关研究主要有基于随机变换的MASK算法,该算法是数据挖掘隐私保护领域扰乱策略的代表,该算法通过数据干扰和分布重构实现了隐私保护挖掘,但需要对数据库中的多个项集进行计算且只用一个参数进行干扰,使得隐私性较低。后续提出的EMASK算法对其进行了改进,在数据库转变时,1和0分别以概率p和q进行转换;在项集计数时,用到了集合计算的方法。虽然提高了隐私性,简化了项集计数,但重构原始数据项的支持度是指数级运算,仍然影响执行效率。后续提出的一种多参数随机扰动算法(MRD),解决了单一使用数据干扰和数据查询策略的缺陷,有效地提高了隐私保护度,但重构项集支持度时的计算为指数级时间复杂度,执行效率仍然很低。
技术实现思路
针对现有方法存在的不足,本专利技术提出了一种改进的多参数扰动数据挖掘隐私保护方法。该方法思想如下:(1)矩阵分块的方法在改进前的多参数扰动算法中,为了估算k-项集的真实支持度,需要先构造阶数为2k的转换矩阵M,然后再求出M的逆矩阵M-1。随着k的增大,转换矩阵M的阶数以2k的速度增大,求解M-1的时间复杂度为O(n3),其中n=2k,随着n的增大,算法的时间开销也越来越大。通过对转换矩阵的研究,采用矩阵分块的方法,发现M-1满足递归关系。因此可以直接求出M-1而不用先求出M,以下给出了求解M-1的方法。由于CD=MCT,则1-项集对应的公式为CD=M2CT,其转换矩阵M表示为同理,2-项集对应的公式为CD=M4CT,其转换矩阵M表示为用矩阵分块的思想对M4进行划分:同理可得,3-项集的转换矩阵M表示为依次类推,转换矩阵M有如下递归关系:因此,由分块对角矩阵的性质可知:为求采用高斯消元法,过程如下:所以,则由公式(2)可知,满足递归关系。又当p1,p2,p3确定时,唯一确定。因此,可以通过求出依次递推求出然后,根据公式CT=M-1CD求出各项集的真实支持度,得到频繁项集。根据公式(2),可以推算其时间复杂度如下:其中:k=2n,n=1,2,…;T(2)为生成所需要的时间;S(2)为生成矩阵所需要的时间;由于T(2)和S(2)的时间复杂度均为O(1),即看作常数,所以T(k)=O(k)。而改进前的多参数扰动算法直接求解逆矩阵所需的时间复杂度为O(n3),矩阵分块的方法在时间复杂度上提高了两个数量级。(2)求逆矩阵首行元素的方法本次改进方法对计算项集支持度的方式做了进一步的优化,只需求出M-1的首行元素即可,而不用求出M-1中所有的元素。对于公式CT=Μ-1CD,要求出项集的支持度,只需求出而要求只须让的首行元素和CD的元素逐个相乘。因此在求的时候只需求出首行元素即可。因为又因此,的首行元素是和的乘积组合。用0代替用1代替则有:的首行元素是(0,1)。的首行元素是(0*(0,1),1*(0,1)),即(00,01,10,11)。的首行元素是(0*(00,01,10,11),1*(00,01,10,11)),即(000,001,010,011,100,101,110,111)。依此类推,可以得出:k-项集的转换矩阵逆矩阵的首行元素对应的是由0到2k-1的k位二进制数。即其中:j为十进制数i对应的二进制数中1的个数。由公式(3)可知,k-项集支持度表示为与公式(1)重构项集支持度的方式不同,优化后的项集支持度重构公式(4)的等式左边只用到而不是CT中的所有2k个元素,等式右边只用到了转换矩阵逆矩阵首行的2k个元素,而不是转换矩阵逆矩阵中的所有22k个元素,使得执行效率得到进一步地提高。(3)集合运算的方法以上方法改进了求解M-1的过程,但从公式CT=Μ-1CD可知,除了求解M-1的过程,还有求解CD,即对合成数据集的计数过程,而在对合成数据集估算k-项集的真实支持度的时候,需要考虑的则是原始项扰乱后可能产生的2n种情况,而对每一种情况都要对其合成数据集进行计数,使得开销很大。针对以上问题,可以运用集合运算的原理进行简化计算。根据布尔型数据集的项集特性,可以发现在计算2-项集{A,B}时,A,B取值为0或1,只要查询出A,B取值都为1的个数,即11的个数,其他的取值组合10、01、00可以表示为10:01:00:根据集合运算的原理进行推理:又因为由于事务内的各项都是相互独立的,所以|(A1∪A2∪…∪Am)B1B2…Bn|=|A1∪A2∪…∪Am|*|B1B2…Bn|最后可以得到利用公式(5),在对合成数据集计数的过程中,只需查询一次弯曲数据集,其他组合的计数可以通过之前在弯曲数据集中得到的频繁项集取值都为1的计数求得。在挖掘过程中,建立动态哈希链表来存储取值都为1的项集计数,为之后的挖掘提供所需的中间结果。这样就可以明显的降低对歪曲数据集各组合计数过程所产生的系统开销,显著地改善了执行效率。附图说明图1数据挖掘隐私保护方法流程图。具体实施方式在改进方法中,定义函数sup(A)用于计算项集A在歪曲数据集中的支持数,函数cal(k)用于计算k-项集各个组合的个数,哈希表hashtab用于存储频繁项集在歪曲数据集中取值都为1的个数。下面用伪代码表示改进方法的实现过程,方法流程图见图1。输入:弯曲数据集D,扰动参数p1,p2,p3,最小支持度s。输出:原始数据集T中的频繁项集L表1事务列表表2事务列表的布尔型表示以上对本专利技术的具体实施例进行了描述。需要理解的是,本专利技术并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本专利技术的实质内容。本文档来自技高网
...
一种基于多参数扰动的数据挖掘隐私保护方法

【技术保护点】
一种基于多参数扰动的数据挖掘隐私保护方法,其特征在于:针对超市购物篮数据集,数据集的列代表商品名,行代表顾客的购物行为,所挖掘的数据集可以看作由0和1组成的布尔型矩阵,1表示购买某商品,0表示未购买;对原始数据集进行概率变换,形成弯曲数据集,达到对真实数据集的保护;使用多参数扰动方法,对弯曲后的数据集进行项集支持度重构,得到原始数据集的频繁项集。

【技术特征摘要】
1.一种基于多参数扰动的数据挖掘隐私保护方法,其特征在于:针对超市购物篮数据集,数据集的列代表商品名,行代表顾客的购物行为,所挖掘的数据集可以看作由0和1组成的布尔型矩阵,1表示购买某商品,0表示未购买;对原始数据集进行概率变换,形成弯曲数据集,达到对真实数据集的保护;使用多参数扰动方法,对弯曲后的数据集进行项集支持度重构,得到原始数据集的频繁项集。2.根据权利要求1所述的数据挖掘隐私保护方法,其特征在于:所述的原始数据集,由0和1组成的布尔型矩阵,行表示顾客的购物行为,列表示商品名,1表示购买某商品,0表示未购买。3.根据权利要求2所述的数据挖掘隐私保护方法,其特征在于:所述的概率变换,其特征在于:给定三个随机化参数p1,p2,p3,其中0≤p1,p2,p3≤1,并且p1+p2+p3=1;对于事务集的任意一个项t∈{0,1},设f1=t,f2=1-t,f3=0,定义一个随机函数f(t),函数值以概率pi取值fi,i=1,2,3;设事务集项的总数为k,则对于原始事务集T=(t1,t2,…,tk)扰动后变为事务集D=(d1,d2,…,dk)可通过D=F(T)计算得到,其中di=f(ti);di以概率p1取值ti,以概率p2取值1-t...

【专利技术属性】
技术研发人员:柳毅晏青凌捷
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1