System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘,并且更具体地,涉及一种基于差分隐私的低压用电数据安全挖掘分析方法及装置。
技术介绍
1、随着现代科技的日新月异,ai、大数据、5g通信等新技术逐步融入人们生活和生产,同时这些技术也在重塑着不同产业的业态。随着电力服务需求不断增长,新型业务不断涌现,电网公司也在逐步地通过新技术实现传统电网向电力物联网的转变。由此,电网中被部署了大量的传感设备用以采集电力用户的用电信息,以便反映企业的生产经营状况,掌握居民的用电行为习惯,制定更加合理有效的供配电策略,挖掘潜在的商业价值,实现更优质的供电服务。数据挖掘方法众多,聚类因善于处理海量数据,能够挖掘潜在的数据行为模式,得到了广泛的应用。但是,电力用户和企业的用电数据在传递和交由外协人员分析处理的同时存在隐私泄露的风险。
2、同时,国家也越来越重视国家和个人数据安全,2016年11月《中华人民共和国网络安全法》被立法机构审议通过并于次年正式实施,2021年6月10日《数据安全法》审议通过并于2021年9月1日实施,以法律的形式明确了居民隐私保护的重要性。如何改进用电服务质量的同时而又不导致居民隐私泄露,是电力服务被电力用户接纳的关键,也是电网保护个人隐私安全实现电网数字化转型的前提。实现隐私保护的手段很多,数据加密、数据匿名、数据安全聚合、差分隐私等方法可以实现不同安全等级的隐私保护,但是其处理对象和硬件需求不同。数据加密能够实现最高安全等级的隐私保护,但是需要耗费大量的软硬件资源;数据匿名、数据安全聚合仅仅能够在用户数据收集阶段实现隐私保护,而差分隐私可
3、差分隐私是实现隐私保护的重要技术分支,而k-means聚类算法是实现差分隐私的重要手段。当前主要实现手段包括:向簇内所有样本点添加噪声,避免中心点泄露;改进噪声的添加策略,降低样本的整体噪声水平,提升聚类精度;将laplace机制引入差分隐私中。但是上述方法在引入噪声的同时也降低了聚类的精度,降低了聚类的精准性,同时添加噪声后往往会产生异常点,这些异常点会进一步恶化聚类效果。因此,如何在实现差分隐私保护的前提下,保证聚类结果的精准性,排除异常点的影响是亟需解决的难题。
技术实现思路
1、针对现有技术的不足,本专利技术提供一种基于差分隐私的低压用电数据安全挖掘分析方法及装置。
2、根据本专利技术的一个方面,提供了一种基于差分隐私的低压用电数据安全挖掘分析方法,包括:
3、利用k聚类算法对采集的低压用电数据集进行聚类,确定多个集群的初始聚类中心以及初始分类结果;
4、采用拉普拉斯噪声机制对低压用电数据集进行加噪,生成有效样本加噪数据集;
5、利用有效样本加噪数据集对初始聚类中心进行更新,确定加噪聚类中心;
6、根据初始分类结果中每个集群内部的样本的相似程度计算每个样本的权重,并求解每个样本与对应的加噪聚类中心的相对距离;
7、根据每个样本的权重以及相对距离,对多个集群进行重新划分,确定更新聚类中心;
8、判断当前的更新聚类中心与前一次聚类得到的前一个聚类中心是否满足预先设定的判据,并在满足判据的情况下,终止算法,确定最优加噪数据集,否则重复加噪操作。
9、可选地,利用k聚类算法对采集的低压用电数据集进行聚类,确定多个集群的初始聚类中心以及初始分类结果,包括:
10、采集低压用电数据集,其中低压用电数据集包括多个样本数据点;
11、剔除低压用电数据集中的离群点,确定有效样本数据集;
12、将有效样本数据集分成k个集群,并确定每个集群的初始聚类中心;
13、根据初始聚类中心,利用k均值分类算法对有效样本数据集进行初始分类,确定初始分类结果。
14、可选地,剔除低压用电数据集中的离群点,确定有效样本数据集,包括:
15、计算低压用电数据集内每个样本数据点的密度值;
16、将每个样本数据点的密度值进行降序排列,并根据预设的离群值参数r,将排序队列末端的n*(1-r)个低压用电数据集中的样本数据点确定为离群点,并将离群点剔除,确定有效样本数据集。
17、可选地,密度值计算公式为:
18、
19、
20、其中,x为待计算样本数据点,yi为低压用电数据集内的第i个样本数据点,n为数据集中的数据点数,dist(x,y)用以求解数据点x和y的欧氏距离,dim为低压用电数据集内的样本数据点的特征维度。
21、可选地,将有效样本数据集分成k个集群,并确定每个集群的初始聚类中心,包括:
22、步骤1):循环遍历有效样本数据集,计算每个样本的密度值;
23、步骤2):根据密度值对样本进行降序排列,生成新的样本数据集ds;
24、步骤3):确定新的样本数据集中的样本个数n,order=1,循环遍历新的样本数据集,若样本序号i≥n*r,n为迭代次数,则执行步骤4);如果order=n*(1-r)+1,执行步骤5),r为边界参数;
25、步骤4):离群值outlier(order)=ds[i],order=order+1,返回步骤3;
26、步骤5):计算每个集群内的样本数量number=n*(1-r)/k,k为聚类个数;
27、步骤6):将新的样本数据集ds的前n*r个样本均分为k份,每份number个样本;
28、步骤7):通过公式计算每个初始聚类中心center[m],m=1,2,3...k。
29、可选地,相对距离计算公式为:
30、
31、式中,x为样本数据,wi为每个集群内第i个样本的权重,1=1,2,3...n,n为样本数量,centerci为第i个样本所在集群的聚类中心。
32、可选地,判据为:
33、centerni-j/centeroi-j<ζ
34、式中,centerni-j表示第i个更新聚类中心第j个特征,centeroi-j表示第i个前一个聚类中心第j个特征,ζ为设置的变化率阈值,i∈{1,2,3,…k}。
35、根据本专利技术的另一个方面,提供了一种基于差分隐私的低压用电数据安全挖掘分析装置,包括:
36、聚类模块,用于利用k聚类算法对采集的低压用电数据集进行聚类,确定多个集群的初始聚类中心以及初始分类结果;
37、加噪模块,用于采用拉普拉斯噪声机制对低压用电数据集进行加噪,生成有效样本加噪数据集;
38、更新模块,用于利用有效样本加噪数据集对初始聚类中心进行更新,确定加噪聚类中心;
39、求解模块,用于根据初始分类结果中每个集群内部的样本的相似程度计算每个样本的权重,并求解每个样本与对应的加噪聚类中心的相对距本文档来自技高网...
【技术保护点】
1.一种基于差分隐私的低压用电数据安全挖掘分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,利用K聚类算法对采集的低压用电数据集进行聚类,确定多个集群的初始聚类中心以及初始分类结果,包括:
3.根据权利要求2所述的方法,其特征在于,剔除所述低压用电数据集中的离群点,确定有效样本数据集,包括:
4.根据权利要求3所述的方法,其特征在于,所述密度值计算公式为:
5.根据权利要求2所述的方法,其特征在于,将所述有效样本数据集分成k个集群,并确定每个集群的初始聚类中心,包括:
6.根据权利要求2所述的方法,其特征在于,所述相对距离计算公式为:
7.根据权利要求1所述的方法,其特征在于,所述判据为:
8.一种基于差分隐私的低压用电数据安全挖掘分析装置,其特征在于,包括:
9.根据权利要求8所述的装置,其特征在于,聚类模块,包括:
10.根据权利要求9所述的装置,其特征在于,剔除子模块,包括:
11.一种计算机可读存储介质,其特征在于,所述存储介质存储
12.一种电子设备,其特征在于,所述电子设备包括:
...【技术特征摘要】
1.一种基于差分隐私的低压用电数据安全挖掘分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,利用k聚类算法对采集的低压用电数据集进行聚类,确定多个集群的初始聚类中心以及初始分类结果,包括:
3.根据权利要求2所述的方法,其特征在于,剔除所述低压用电数据集中的离群点,确定有效样本数据集,包括:
4.根据权利要求3所述的方法,其特征在于,所述密度值计算公式为:
5.根据权利要求2所述的方法,其特征在于,将所述有效样本数据集分成k个集群,并确定每个集群的初始聚类中心,包括:
6.根据...
【专利技术属性】
技术研发人员:翟峰,梁晓兵,李保丰,陈昊,郜波,郑安刚,秦煜,付义伦,李智虎,赵英杰,许斌,徐萌,冯云,张辰,潘卫红,李宏发,谢静怡,林晨晗,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。