一种基于多参数扰动的数据挖掘隐私保护方法技术

技术编号：15746857 阅读：144 留言：0更新日期：2017-07-03 03:04

隐私保护是当前数据挖掘领域中一个十分重要的研究方向，其目的是在不精确访问真实数据的条件下，得到潜在的模式和规律。本发明专利技术提出了一种多参数扰动的数据挖掘隐私保护方法，该方法用三个随机参数对原始数据进行干扰，采用矩阵分块的方法划分转换矩阵，并在求转换矩阵逆矩阵时，只需求出逆矩阵的首行元素而不用求出所有逆矩阵元素，消除了重构项集支持度的指数级复杂度；利用集合运算原理，用已知数据项推出未知数据项，简化了计算合成项集支持数的过程，结合项集支持度重构公式，从而还原出原始数据的频繁项集。本发明专利技术用于关联规则数据挖掘隐私保护效果显著，既可以有效地挖掘频繁项集，又具有更高的计算效率。

A data mining privacy protection method based on multi parameter perturbation

Privacy preserving is one of the most important research fields in data mining field. The purpose of privacy preserving is to obtain potential patterns and rules under imprecise access to real data. The invention provides a multi parameter perturbation of privacy preserving data mining methods, the method of interference of the original data with three random parameters, block partition method using matrix transformation matrix and inverse matrix in calculating transformation matrix, only a first element inverse matrix instead of find all the elements of the inverse matrices that eliminates the exponential reconstruction itemsets support complexity; using the set operation principle, introduced the unknown data item with known data, simplify the calculation of the number of itemsets support synthesis process, with the support of the item sets and the original reconstruction formula, frequent item of original data set. The invention is used for association rule data mining and has remarkable privacy protection effect, and can effectively mine frequent itemsets and have higher computing efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多参数扰动的数据挖掘隐私保护方法
本专利技术涉及数据挖掘的隐私保护领域，具体涉及一种基于多参数扰动的数据挖掘隐私保护方法。
技术介绍
近年来，随着信息技术的飞速发展，各行各业都积累了大量的数据。如何从这些数据中挖掘出更深层次的信息，成为当务之急。数据挖掘作为一种有效的数据分析技术，可以发现海量数据中隐含的知识和规律。然而，在使用一般的挖掘方法过程中，容易泄露隐私数据。因此，在进行数据挖掘的同时保护隐私数据是数据挖掘领域亟待解决的问题。目前，数据挖掘隐私保护按策略上主要分为数据干扰和查询限制两大类。数据干扰就是对原始数据进行随机变换、数据离散化和添加噪声等方法进行干扰，从而保护隐私数据，再对干扰后的数据进行挖掘，得到所需的模式和规律；查询限制就是通过对原始数据进行隐藏、抽样和划分等方式，避免数据挖掘者获得完整的原始数据，然后再通过概率统计或者分布式计算的方法得到所需的模式和规律。但是，这两种策略都存在固有的不足。数据干扰策略中，所有干扰的数据均与真实的原始数据直接相关；而查询限制策略中，所有提供的数据都是真实的原始数据，这些都会降低对隐私数据的保护程度。现行针对数据扰乱策略的相关研究主要有基于随机变换的MASK算法，该算法是数据挖掘隐私保护领域扰乱策略的代表，该算法通过数据干扰和分布重构实现了隐私保护挖掘，但需要对数据库中的多个项集进行计算且只用一个参数进行干扰，使得隐私性较低。后续提出的EMASK算法对其进行了改进，在数据库转变时，1和0分别以概率p和q进行转换；在项集计数时，用到了集合计算的方法。虽然提高了隐私性，简化了项集计数，但重构原始数据项...
一种基于多参数扰动的数据挖掘隐私保护方法

【技术保护点】
一种基于多参数扰动的数据挖掘隐私保护方法，其特征在于：针对超市购物篮数据集，数据集的列代表商品名，行代表顾客的购物行为，所挖掘的数据集可以看作由0和1组成的布尔型矩阵，1表示购买某商品，0表示未购买；对原始数据集进行概率变换，形成弯曲数据集，达到对真实数据集的保护；使用多参数扰动方法，对弯曲后的数据集进行项集支持度重构，得到原始数据集的频繁项集。

【技术特征摘要】
1.一种基于多参数扰动的数据挖掘隐私保护方法，其特征在于：针对超市购物篮数据集，数据集的列代表商品名，行代表顾客的购物行为，所挖掘的数据集可以看作由0和1组成的布尔型矩阵，1表示购买某商品，0表示未购买；对原始数据集进行概率变换，形成弯曲数据集，达到对真实数据集的保护；使用多参数扰动方法，对弯曲后的数据集进行项集支持度重构，得到原始数据集的频繁项集。2.根据权利要求1所述的数据挖掘隐私保护方法，其特征在于：所述的原始数据集，由0和1组成的布尔型矩阵，行表示顾客的购物行为，列表示商品名，1表示购买某商品，0表示未购买。3.根据权利要求2所述的数据挖掘隐私保护方法，其特征在于：所述的概率变换，其特征在于：给定三个随机化参数p1，p2，p3，其中0≤p1，p2，p3≤1，并且p1+p2+p3＝1；对于事务集的任意一个项t∈{0，1}，设f1＝t，f2＝1-t，f3＝0，定义一个随机函数f(t)，函数值以概率pi取值fi，i＝1，2，3；设事务集项的总数为k，则对于原始事务集T＝(t1,t2,…,tk)扰动后变为事务集D＝(d1,d2,…,dk)可通过D＝F(T)计算得到，其中di＝f(ti)；di以概率p1取值ti，以概率p2取值1-t...

【专利技术属性】
技术研发人员：柳毅，晏青，凌捷，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人