当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多参数干扰的隐私保护关联规则数据挖掘方法技术

技术编号:9718805 阅读:173 留言:0更新日期:2014-02-27 05:34
本发明专利技术涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法,包括:将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则。与现有技术相比,本发明专利技术实现了数据干扰策略和查询限制策略的相互结合,克服了两个策略本身存在的缺陷,提高了隐私保护程度;根据矩阵分块思想发现了概率逆矩阵之间的递推关系,避免了先求出概率矩阵再计算其逆矩阵的繁琐过程,基于集合原理优化计数过程,消除了计数过程中的指数级时间复杂度,很大地提高了方法执行效率。

【技术实现步骤摘要】

本专利技术涉及数据挖掘中隐私数据的保护技术,尤其是涉及。
技术介绍
数据挖掘技术通过融合人工智能、统计学和数据库管理等传统数据分析方法可以从大规模数据集中提取出隐藏的规则和模式,从而为相关部门提供有效决策支持。当数据挖掘发挥越来越大的作用时,随之也带来了隐私方面的问题。比如说疾病控制中心可以通过分析医院病人的病历信息得到疾病间的关系(成年女性患疟疾的同时可能会患有肺结核)。但是数据挖掘技术是基于真实的数据上进行的,无法有效地保护病人所患疾病等隐私信息。与此同时,这些敏感的信息恰恰是医院和病人不想泄露的。再例如,两个公司共享各自数据库进行合作挖掘,得出对双方都有用的信息,但是企业往往不愿意公布自己的真实数据给合作方以免泄露自己的企业机密。隐私保护数据挖掘技术就是为了解决上述问题而产生的。隐私保护数据挖掘的目标就是在保证数据挖掘的同时尽可能地保护隐私数据,在无法获得精确数据的情况下,却能够得到准确的模型和分析结果。基于隐私保护的关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一。申请号为201010209518.8的中国专利公开了一种面向关联规则挖掘的隐私数据保护方法,该方法保护了隐私数据在传输过程中的安全性,但在挖掘前仍要恢复原始数据,存在泄漏隐私的风险。2009年王锐提出了MRD算法,提高了关联规则挖掘过程中的隐私保护度,但是运行时间效率不高。2010年沈中林提出了改进的隐私保护关联规则挖掘算法,通过分治策略对MASK算法进行改进,提高了运行时间效率但隐私保护程度低。现有的隐私保护关联规则挖掘方法普遍存在着时间复杂度高、隐私保护程度低等缺点,很难将其应用到实际中。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供,该方法结合数据干扰和查询限制策略,通过设置不同的参数对原始数据进行不同的处理,实现了对隐私数据更有效的保护,数据挖掘的对象是干扰后的数据,而且在重构过程中引入集合原理,依据扰动参数对数据的真实支持度进行重构以获得频繁项集,消除了额外的计数开销,提高了执行效率。本专利技术的目的可以通过以下技术方案来实现:,其特征在于,包括以下步骤:(I)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D';(2)采用改进后的MASK算法对干扰后数据集D'进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。实施步骤(1)具体为,11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T= [i1;i2,...1k],k代表项的个数;其中,ij, I ≤ j ≤ k的值为O或1,I表示该项出现,O表示该项不出现;12)设置三个随机化参数=PpP2AP3,满足 O ≤ P1, P2, P3 ≤ I 和 p1+p2+p3=l ;13)对每个项ij进行随机干扰,将数据记录T= [i1; i2,...1k]变换成T' = [i/ ,i2!],得到干扰后数据集D',其中,i/表示以P1的概率保持原来的值1」,以P2的概率变成Ι-1p以P3的概率取值为O。实施步骤(2)具体为,21)设置最小支持度阈值S,扫描干扰后数据集D',产生候选1-项集C1 ;22) n=l,根据下式从干扰后数据集IV中重构得到候选1_项集中各个1_项集的真实支持度Cf,本文档来自技高网
...

【技术保护点】
一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。

【技术特征摘要】
1.一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤: (1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D'; (2)采用改进后的MASK算法对干扰后数据集D'进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。2.根据权利要求1所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,实施步骤(1)具体为, 11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1; ik],k代表项的个数; 其中,Ij, I ^ j ^ k的值为O或1,I表示该项出现,O表示该项不出现; 12)设置三个随机化参数=PpP2AP3,满足O( P1, p2, p3≤I和p1+p2+p3 = I ...

【专利技术属性】
技术研发人员:马云龙刘敏楼灏亮章锋魏晓婷
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1