基于OPTICS聚类的医疗数据异方差差分隐私保护方法技术

技术编号:20449055 阅读:26 留言:0更新日期:2019-02-27 03:05
一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,通过引入单链表update和指针S使得OPTICS聚类算法的时间复杂度降低,并采用了K‑匿名和差分隐私保护的结合使得其安全性得到进一步增加,为了保证数据的可用性,采用异方差加噪的方式,使得数据可用性明显改善,再此过程中,我们假设攻击者在最大知识背景下,求得能够成功获取隐私信息的概率,设置隐私参数的上界,保证在隐私保护的范围内,有效的平衡了数据可用性和隐私安全之间的关系。

Heteroscedastic Differential Privacy Protection Method for Medical Data Based on OPTICS Clustering

A heteroscedastic differential privacy protection method for medical data based on OPTICS clustering is proposed. The time complexity of OPTICS clustering algorithm is reduced by introducing single linked list update and pointer S. The combination of K_anonymity and differential privacy protection is adopted to further increase its security. In order to ensure the availability of data, heteroscedastic noise is used to make the data usability clear. In this process, we assume that the attacker can obtain the probability of successful access to privacy information under the maximum knowledge background, and set the upper bound of privacy parameters to ensure that within the scope of privacy protection, the relationship between data availability and privacy security is effectively balanced.

【技术实现步骤摘要】
基于OPTICS聚类的医疗数据异方差差分隐私保护方法
本专利技术涉及医疗数据保护
,具体涉及一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法。
技术介绍
近些年,医疗数据与人工智能的结合使得智能医疗空前火热,医疗数据的正确使用,带来了莫大的价值,加上人工智能的结合,牵领医疗事业走向新方式、新视野、新局面,然而由于医疗数据的价值,使得针对医疗数据的攻击方式和数量都大幅度增加,医疗数据隐私的泄露越发严重,如何在人工智能算法使用医疗数据的过程中保证其数据可用性的同时保证其数据隐私的安全性成为一大焦点。数据隐私保护:为了实现数据隐私保护,目前常见的技术可分为三类:数据加密、限制发布和数据失真,上述方法虽然非常有效但亦有其不足之处:数据加密使得数据可用性极低,违背了数据利用的大前提;限制发布没有定义一个严格的攻击模型,在攻击者拥有足够知识背景的情况下,此技术给予的保护非常薄弱;数据失真对应的典型技术是差分隐私保护技术,也是现在最有效、最常用的技术,它定义了一个强有力的攻击模型,但因为本身是基于失真,所以在给予数据强保护时(加大噪音)依旧会导致数据可用性大大下降。人工智能方面:OPTICS算法,是人工智能中的一典型聚类算法,它能够根据数据集覆盖稠密区域的形状进行聚类,找到任意形状的簇,且它对参数的输入并不敏感,更好地体现了查询数据集中数据的疏密关系,使得对医疗数据的分布和关联可做更有效的分析,但其对低频数据处理还有待改善。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种基于OPTICS聚类的异方差差分隐私保护算法,用来保护聚类时使用的医疗数据的数据隐私(DP-OPTICS-M)的方法。本专利技术克服其技术问题所采用的技术方案是:一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,包括:a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到医疗数据D;b)用户自定义K-anonymity机制的隐私参数K,将医疗数据D基于准标识符进行泛化处理,得到泛化后的医疗数据集D’;c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据,用户自定义OPTICS算法中的邻域半径r及最小个数M,建立OPTICS算法中种子队列L1、结果队列L2及指针S,初始化种子队列L1、结果队列L2为空队列,定义指针S;d)遍历整个医疗数据集D’,计算医疗数据集D’中每两个样本之间的欧几里得距离,如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r,则该点为核心点,将核心点创建一个对应的单链表update,以每个核心点为圆心,将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中;e)选取医疗数据集D’中但不在结果队列L2中的一个样本,设此样本为样本点p,将p加入种子队列L1中,将指针S指向该样本点p,并执行步骤f),如果医疗数据集D’中所有的样本点都已存在于结果队列L2中则执行步骤j);f)判断种子队列L1是否为空,如果为空则返回执行步骤e),如果不为空则执行步骤g);g)在种子队列L1中选取指针S指向的样本点p,如果样本点p不是核心点,则设置该样本点的可达距离为undefined,设置完成后执行步骤i),如果样本点p是核心点,则在样本点p的单链表update中任意选取一该样本点,设为样本点q,之后执行步骤h);h)如果样本点q对应的样本不在种子队列L1队列内,则把样本点q对应的样本以及此时q与p对应样本之间的可达距离放入种子队列L1内,之后执行步骤i),如果样本点q对应的样本在种子队列L1队列内,将种子队列L1中此样本对应的可达距离与样本点q和样本点p之间的可达距离作比较,若样本点q和样本点p之间的可达距离小于种子队列L1中此样本对应的可达距离,则将种子队列L1中此样本对应的可达距离替换为样本点q和样本点p之间的可达距离,执行步骤i);i)在种子队列L1删除指针S对应的样本点p以及样本点p在种子队列L1中对应的可达距离,并将删除的样本点p及其在种子队列L1中记录的可达距离写入结果队列L2中,遍历种子队列L1中的所有点,之后遍历种子队列L1中的所有点,将指针S指向种子队列L1中对应的可达距离最小样本点,并设此样本点为p,之后返回步骤f);j)以结果队列L2中的样本点的数目作为横坐标、结果队列L2中各样本点对应的已存储的可达距离为纵坐标,生成可达图,利用ξ-cluster算法计算得到可达图中的高频数据集、低频数据集以及离散点;;k)利用公式对高频数据集进行添加噪声,利用公式对低频数据集进行添加噪声,其中Lap为拉普拉斯噪音,εi为高频数据的隐私参数,εj为低频数据的隐私参数,εi:εj=15:1,εi+εj=ε,ε=0.42。进一步的,步骤b)中泛化处理的步骤包括:b-1)创建空的待泛化队列W,将医疗数据D中准标识属性加入待泛化队列W;b-2)从待泛化队列W中选取一个待泛化的属性,依据选取的待泛化的属性对医疗数据D进行属性泛化分裂,得到新的属性值组合;b-3)对泛化分裂得到的新的属性值组合进行K-anonymity机制验证,如果每个新的属性值的数据数目均大于等于隐私参数K,则认为满足K-anonymity机制,将泛化后的数据保存至医疗数据D,如果每个新的属性值的数据数目均小于隐私参数K,则认为泛化分裂失败,将步骤d-2)中选取的待泛化的属性从待泛化队列W中删除;b-4)重复步骤d-2)和d-3),直至步骤d-2)中待泛化队列W中待泛化的属性全部逐一不重复的选取过;b-5)将泛化后的数据进行取中值处理,保存泛化完的数据为医疗数据集D’。本专利技术的有益效果是:通过引入单链表update和指针S使得OPTICS聚类算法的时间复杂度降低,并采用了K-匿名和差分隐私保护的结合使得其安全性得到进一步增加,为了保证数据的可用性,采用异方差加噪的方式,使得数据可用性明显改善,再此过程中,我们假设攻击者在最大知识背景下,求得能够成功获取隐私信息的概率,设置隐私参数的上界,保证在隐私保护的范围内,有效的平衡了数据可用性和隐私安全之间的关系。具体实施方式下面对本专利技术做进一步说明。一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,包括:a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到医疗数据D;b)用户自定义K-anonymity机制的隐私参数K,将医疗数据D基于准标识符进行泛化处理,得到泛化后的医疗数据集D’;c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据,用户自定义OPTICS算法中的邻域半径r及最小个数M,建立OPTICS算法中种子队列L1、结果队列L2及指针S,初始化种子队列L1、结果队列L2为空队列,定义指针S;d)遍历整个医疗数据集D’,计算医疗数据集D’中每两个样本之间的欧几里得距离,如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r,则该点为核心点,将核心点创建一个对应的单链表update,以每个核心点为圆心,将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离本文档来自技高网...

【技术保护点】
1.一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,其特征在于,包括:a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到医疗数据D;b)用户自定义K‑anonymity机制的隐私参数K,将医疗数据D基于准标识符进行泛化处理,得到泛化后的医疗数据集D’;c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据,用户自定义OPTICS算法中的邻域半径r及最小个数M,建立OPTICS算法中种子队列L1、结果队列L2及指针S,初始化种子队列L1、结果队列L2为空队列,定义指针S;d)遍历整个医疗数据集D’,计算医疗数据集D’中每两个样本之间的欧几里得距离,如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r,则该点为核心点,将核心点创建一个对应的单链表update,以每个核心点为圆心,将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中;e)选取医疗数据集D’中但不在结果队列L2中的一个样本,设此样本为样本点p,将p加入种子队列L1中,将指针S指向该样本点p,并执行步骤f),如果医疗数据集D’中所有的样本点都已存在于结果队列L2中则执行步骤j);f)判断种子队列L1是否为空,如果为空则返回执行步骤e),如果不为空则执行步骤g);g)在种子队列L1中选取指针S指向的样本点p,如果样本点p不是核心点,则设置该样本点的可达距离为undefined,设置完成后执行步骤i),如果样本点p是核心点,则在样本点p的单链表update中任意选取一该样本点,设为样本点q,之后执行步骤h);h)如果样本点q对应的样本不在种子队列L1队列内,则把样本点q对应的样本以及此时q与p对应样本之间的可达距离放入种子队列L1内,之后执行步骤i),如果样本点q对应的样本在种子队列L1队列内,将种子队列L1中此样本对应的可达距离与样本点q和样本点p之间的可达距离作比较,若样本点q和样本点p之间的可达距离小于种子队列L1中此样本对应的可达距离,则将种子队列L1中此样本对应的可达距离替换为样本点q和样本点p之间的可达距离,执行步骤i);i)在种子队列L1删除指针S对应的样本点p以及样本点p在种子队列L1中对应的可达距离,并将删除的样本点p及其在种子队列L1中记录的可达距离写入结果队列L2中,遍历种子队列L1中的所有点,之后遍历种子队列L1中的所有点,将指针S指向种子队列L1中对应的可达距离最小样本点,并设此样本点为p,之后返回步骤f);j)以结果队列L2中的样本点的数目作为横坐标、结果队列L2中各样本点对应的已存储的可达距离为纵坐标,生成可达图,利用ξ‑cluster算法计算得到可达图中的高频数据集、低频数据集以及离散点;;k)利用公式...

【技术特征摘要】
1.一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,其特征在于,包括:a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到医疗数据D;b)用户自定义K-anonymity机制的隐私参数K,将医疗数据D基于准标识符进行泛化处理,得到泛化后的医疗数据集D’;c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据,用户自定义OPTICS算法中的邻域半径r及最小个数M,建立OPTICS算法中种子队列L1、结果队列L2及指针S,初始化种子队列L1、结果队列L2为空队列,定义指针S;d)遍历整个医疗数据集D’,计算医疗数据集D’中每两个样本之间的欧几里得距离,如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r,则该点为核心点,将核心点创建一个对应的单链表update,以每个核心点为圆心,将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中;e)选取医疗数据集D’中但不在结果队列L2中的一个样本,设此样本为样本点p,将p加入种子队列L1中,将指针S指向该样本点p,并执行步骤f),如果医疗数据集D’中所有的样本点都已存在于结果队列L2中则执行步骤j);f)判断种子队列L1是否为空,如果为空则返回执行步骤e),如果不为空则执行步骤g);g)在种子队列L1中选取指针S指向的样本点p,如果样本点p不是核心点,则设置该样本点的可达距离为undefined,设置完成后执行步骤i),如果样本点p是核心点,则在样本点p的单链表update中任意选取一该样本点,设为样本点q,之后执行步骤h);h)如果样本点q对应的样本不在种子队列L1队列内,则把样本点q对应的样本以及此时q与p对应样本之间的可达距离放入种子队列L1内,之后执行步骤i),如果样本点q对应的样本在种子队列L1队列内,将种子队列L1中此样本对应的可达距离与样本点q和样本点p之...

【专利技术属性】
技术研发人员:王英龙孙宗锟舒明雷崔焕庆赵慧奇成曦平永杰燕婷
申请(专利权)人:山东科技大学山东省计算中心国家超级计算济南中心
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1