System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,尤其涉及一种基于拓扑结构的不平衡图数据过采样方法、系统、存储介质及设备。
技术介绍
1、数据不平衡问题一直是机器学习领域的研究热点之一,如故障诊断中故障样本量远远少于正常样本量,这会造成机器学习分类器的精度下降,故障诊断能力也不断下降。当前在数据层面的类不平衡处理技术可以分为过采样技术和欠采样技术,而合成少数类过采样技术(synthetic minority oversampling technique,smote)则是其中的经典方法,并且衍生出了各种改进smote方法。随着图神经网络等面向图结构数据的机器学习方法兴起,图数据上的不平衡问题也日渐突出。图(graph)是一种结构化的非欧几里得数据,它由一系列的节点和连边组成。相比于非图结构数据,在进行过采样以解决类不平衡问题时,一个巨大的挑战在于如何确定合成的少数类与原有图的连边,即如何将少数标签所对应的节点添加到原图中以生成新的图。在这一背景下,经典的smote方法无法直接应用。
2、graphsmote方法将smote原理应用到了图数据中,在图节点的特征提取和连边生成阶段分别采用了图神经网络模型进行特征提取和连边预测,解决了图的不平衡问题。除graphsmote外,多种图结构上的过采样方法被提出,在这些方法中,图神经网络、生成对抗网络、图变分自编码器等被用于进行图结构上的类不平衡处理。然而,上述方法均使用机器学习方法进行节点的特征预测与连边预测,这意味着过采样过程是黑盒的,难以理解其内在逻辑与实现过程,且往往需要耗费较多的资源以实现模型
技术实现思路
1、本专利技术的目的在于克服现有技术中存在的技术问题,本专利技术提出一种基于拓扑结构的不平衡图数据过采样方案。具体而言,该方案完全基于图的拓扑结构实现少数类(即图的节点)的合成,包括节点的特征表示、拓扑表示以及合成少数类的节点生成与连边生成,最终实现可解释的图数据类不平衡处理。
2、本专利技术的目的是通过以下技术方案来实现的:
3、第一方面,提供一种基于拓扑结构的不平衡图数据过采样方法,包括以下步骤:
4、s1、不平衡图获取与定义;
5、s2、社团结构划分:采用社团检测算法对所述不平衡图进行社团划分,并记录每个社团所属节点;
6、s3、少数类节点的节点表示:针对不平衡图中的少数类节点,从节点特征表示、节点局部拓扑结构表示两方面进行节点表示;
7、s4、合成节点生成:基于步骤s3中少数类节点的节点表示,采用过采样思路生成合成节点,并将生成的合成节点嵌入不平衡图;其中,所述采用过采样思路生成合成节点,包括:
8、生成合成节点的局部拓扑结构,并确定合成节点的特征;
9、s5、重复生成合成节点:重复步骤s4,迭代生成合成节点并嵌入不平衡图,直至不平衡图中少数类节点与多数类节点保持需要的数量比例。
10、在一些实施例中,所述步骤s1具体包括:
11、将待处理的不平衡图表示为g(v,e),且有v={v1,…,vi,…,vn}表示节点集合,n为节点数量;e={e1,…,ej,…,em}表示边的集合,m为边的数量。
12、在一些实施例中,所述社团检测算法采用louvain算法。
13、在一些实施例中,所述步骤s3具体包括:
14、将少数类节点vi表示为:
15、
16、其中,为节点vi的节点表示,分别为节点vi的出邻居节点集合、入邻居节点集合和属性集合,且有:
17、
18、其中,表示节点vi的某一个特征,z为特征数量。
19、在一些实施例中,所述生成合成节点的局部拓扑结构,包括:
20、假定vj和vl为不平衡图中的两个少数类节点,其节点表示分别为和且有和合成节点vk的出邻居节点集合、入邻居节点集合均直接继承于已有少数类节点vj和vl,其出邻居节点集合为:
21、
22、入邻居节点集合为:
23、
24、其中,wj和wl分别表示继承自节点vj和vl邻居节点的比例,wj和wl的设置则根据步骤s2的社团划分结果,按照如下原则确定:
25、①若vj和vl属于同一个社团,则取wj=wl=0.5;
26、②若vj和vl不属于同一个社团,根据vj和vl的距离确定wj和wl的值,定义vj和vl的距离为二者之间的节点个数,则有:
27、
28、即从vj和vl各自的出邻居节点、入邻居节点中随机选择占比为的节点作为vk的出、入邻居节点;
29、根据上述原则,在已有少数类节点vj和vl的出邻居节点、入邻居节点集合中各自随机选择占比为wj和wl的出邻居节点、入邻居节点,作为合成节点vk的出邻居节点、入邻居节点集合,构成合成节点vk的局部拓扑结构表示。
30、在一些实施例中,所述确定合成节点的特征,包括:
31、假定vj和vl节点特征分别为和按照如下两种方式计算vk的节点特征:
32、①若节点特征为连续型数据,则有:
33、
34、其中,为vj和vl的第i个特征,为vk的第i个特征,以此确定合成节点vk的特征集合
35、②若节点特征为离散型数据,则有:
36、
37、表示从和中随机选择一个作为vk的特征,以此确定合成节点vk的特征集合至此,确定了合成节点vk的节点表示
38、在一些实施例中,所述将生成的合成节点嵌入不平衡图,包括:
39、从合成节点vk连接有向边到中的每一个节点,同时从中的每一个节点连接有向边到合成节点vk。
40、第二方面,提供一种基于拓扑结构的不平衡图数据过采样系统,包括:
41、不平衡图获取模块,用于不平衡图获取与定义;
42、社团结构划分模块,用于采用社团检测算法对所述不平衡图进行社团划分,并记录每个社团所属节点;
43、少数类节点的节点表示模块,用于针对不平衡图中的少数类节点,从节点特征表示、节点局部拓扑结构表示两方面进行节点表示;
44、合成节点生成模块,用于基于少数类节点的节点表示模块中少数类节点的节点表示,采用过采样思路生成合成节点,并将生成的合成节点嵌入不平衡图;其中,所述采用过采样思路生成合成节点,包括:
45、生成合成节点的局部拓扑结构,并确定合成节点的特征;
46、重复生成合成节点模块,用于控制合成节点生成模块迭代生成合成节点并嵌入不平衡图,直至不平衡图中少数类节点与多数类节点保持需要的数量比例。
47、第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现任意一项所述的基于拓扑结构的不平衡图数据过采样方法。
48、第四方面,提供一种电子设备,包括存储器和处理器,存本文档来自技高网...
【技术保护点】
1.一种基于拓扑结构的不平衡图数据过采样方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述步骤S1具体包括:
3.根据权利要求1所述的一种基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述社团检测算法采用Louvain算法。
4.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述步骤S3具体包括:
5.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述生成合成节点的局部拓扑结构,包括:
6.根据权利要求5所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述确定合成节点的特征,包括:
7.根据权利要求6所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述将生成的合成节点嵌入不平衡图,包括:
8.一种基于拓扑结构的不平衡图数据过采样系统,其特征在于,包括:
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行
10.一种电子设备,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述的基于拓扑结构的不平衡图数据过采样方法。
...【技术特征摘要】
1.一种基于拓扑结构的不平衡图数据过采样方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述步骤s1具体包括:
3.根据权利要求1所述的一种基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述社团检测算法采用louvain算法。
4.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述步骤s3具体包括:
5.根据权利要求1所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,所述生成合成节点的局部拓扑结构,包括:
6.根据权利要求5所述的基于拓扑结构的不平衡图数据过采样方法,其特征在于,...
【专利技术属性】
技术研发人员:苟晓冬,张平平,王昂,陈怡宇,刘焱,张研,郑照明月,邓新蕴,霍忆辛,常青林,黄松,
申请(专利权)人:四川航天系统工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。