基于OPTICS聚类的医疗数据异方差差分隐私保护方法技术

技术编号：20449055 阅读：26 留言：0更新日期：2019-02-27 03:05

一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法，通过引入单链表update和指针S使得OPTICS聚类算法的时间复杂度降低，并采用了K‑匿名和差分隐私保护的结合使得其安全性得到进一步增加，为了保证数据的可用性，采用异方差加噪的方式，使得数据可用性明显改善，再此过程中，我们假设攻击者在最大知识背景下，求得能够成功获取隐私信息的概率，设置隐私参数的上界，保证在隐私保护的范围内，有效的平衡了数据可用性和隐私安全之间的关系。

Heteroscedastic Differential Privacy Protection Method for Medical Data Based on OPTICS Clustering

A heteroscedastic differential privacy protection method for medical data based on OPTICS clustering is proposed. The time complexity of OPTICS clustering algorithm is reduced by introducing single linked list update and pointer S. The combination of K_anonymity and differential privacy protection is adopted to further increase its security. In order to ensure the availability of data, heteroscedastic noise is used to make the data usability clear. In this process, we assume that the attacker can obtain the probability of successful access to privacy information under the maximum knowledge background, and set the upper bound of privacy parameters to ensure that within the scope of privacy protection, the relationship between data availability and privacy security is effectively balanced.

全部详细技术资料下载

【技术实现步骤摘要】
基于OPTICS聚类的医疗数据异方差差分隐私保护方法
本专利技术涉及医疗数据保护
，具体涉及一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法。
技术介绍
近些年，医疗数据与人工智能的结合使得智能医疗空前火热，医疗数据的正确使用，带来了莫大的价值，加上人工智能的结合，牵领医疗事业走向新方式、新视野、新局面，然而由于医疗数据的价值，使得针对医疗数据的攻击方式和数量都大幅度增加，医疗数据隐私的泄露越发严重，如何在人工智能算法使用医疗数据的过程中保证其数据可用性的同时保证其数据隐私的安全性成为一大焦点。数据隐私保护：为了实现数据隐私保护，目前常见的技术可分为三类：数据加密、限制发布和数据失真，上述方法虽然非常有效但亦有其不足之处：数据加密使得数据可用性极低，违背了数据利用的大前提；限制发布没有定义一个严格的攻击模型，在攻击者拥有足够知识背景的情况下，此技术给予的保护非常薄弱；数据失真对应的典型技术是差分隐私保护技术，也是现在最有效、最常用的技术，它定义了一个强有力的攻击模型，但因为本身是基于失真，所以在给予数据强保护时(加大噪音)依旧会导致数据可用性大大下降。人工智能方面：OPTICS算法，是人工智能中的一典型聚类算法，它能够根据数据集覆盖稠密区域的形状进行聚类，找到任意形状的簇，且它对参数的输入并不敏感，更好地体现了查询数据集中数据的疏密关系，使得对医疗数据的分布和关联可做更有效的分析，但其对低频数据处理还有待改善。
技术实现思路
本专利技术为了克服以上技术的不足，提供了一种基于OPTICS聚类的异方差差分隐私保护算法，用来保护聚类时使用的医疗数据的数...

【技术保护点】
1.一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法，其特征在于，包括：a)处理医疗数据，将医疗数据中的数据标识符删除，把医疗数据中的离散属性用固定整数表示，将医疗数据全部数字化后得到医疗数据D；b)用户自定义K‑anonymity机制的隐私参数K，将医疗数据D基于准标识符进行泛化处理，得到泛化后的医疗数据集D’；c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据，用户自定义OPTICS算法中的邻域半径r及最小个数M，建立OPTICS算法中种子队列L1、结果队列L2及指针S，初始化种子队列L1、结果队列L2为空队列，定义指针S；d)遍历整个医疗数据集D’，计算医疗数据集D’中每两个样本之间的欧几里得距离，如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r，则该点为核心点，将核心点创建一个对应的单链表update，以每个核心点为圆心，将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中；e)选取医疗数据集D’中但不在结果队列L2中的一个样本，设此样本为样本点p，将p加入种子队列L1中，将指针...

【技术特征摘要】
1.一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法，其特征在于，包括：a)处理医疗数据，将医疗数据中的数据标识符删除，把医疗数据中的离散属性用固定整数表示，将医疗数据全部数字化后得到医疗数据D；b)用户自定义K-anonymity机制的隐私参数K，将医疗数据D基于准标识符进行泛化处理，得到泛化后的医疗数据集D’；c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据，用户自定义OPTICS算法中的邻域半径r及最小个数M，建立OPTICS算法中种子队列L1、结果队列L2及指针S，初始化种子队列L1、结果队列L2为空队列，定义指针S；d)遍历整个医疗数据集D’，计算医疗数据集D’中每两个样本之间的欧几里得距离，如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r，则该点为核心点，将核心点创建一个对应的单链表update，以每个核心点为圆心，将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中；e)选取医疗数据集D’中但不在结果队列L2中的一个样本，设此样本为样本点p，将p加入种子队列L1中，将指针S指向该样本点p，并执行步骤f)，如果医疗数据集D’中所有的样本点都已存在于结果队列L2中则执行步骤j)；f)判断种子队列L1是否为空，如果为空则返回执行步骤e)，如果不为空则执行步骤g)；g)在种子队列L1中选取指针S指向的样本点p，如果样本点p不是核心点，则设置该样本点的可达距离为undefined，设置完成后执行步骤i)，如果样本点p是核心点，则在样本点p的单链表update中任意选取一该样本点，设为样本点q，之后执行步骤h)；h)如果样本点q对应的样本不在种子队列L1队列内，则把样本点q对应的样本以及此时q与p对应样本之间的可达距离放入种子队列L1内，之后执行步骤i)，如果样本点q对应的样本在种子队列L1队列内，将种子队列L1中此样本对应的可达距离与样本点q和样本点p之...

【专利技术属性】
技术研发人员：王英龙，孙宗锟，舒明雷，崔焕庆，赵慧奇，成曦，平永杰，燕婷，
申请(专利权)人：山东科技大学，山东省计算中心国家超级计算济南中心，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人