一种具有自适应噪声检测的非参数聚类方法技术

技术编号:38390966 阅读:13 留言:0更新日期:2023-08-05 17:44
本发明专利技术涉及提出了一种具有自适应噪声检测的非参数聚类方法,构造加权自然邻居图wNaNG来表示原始数据;从加权自然邻居图中提取五个连通属性,并通过五个连通属性将原始数据划分为干净数据和噪声,此过程是非参数化和自适应的;从wNaNG中移除噪声所对应节点和边缘节点以及连接到噪声所对应节点和边缘节点的连接边获得干净数据集和纯连接矩阵;使用Tarjan方法搜索干净数据的加权自然邻近图中的强连通分量,然后将移除噪声所对应节点和边缘节点分配给最近的簇。该方法不需要事先在图形构建和噪声检测中设置参数因此,该方法克服了当前图聚类方法的参数依赖问题。了当前图聚类方法的参数依赖问题。了当前图聚类方法的参数依赖问题。

【技术实现步骤摘要】
一种具有自适应噪声检测的非参数聚类方法


[0001]本专利技术涉及聚类方法,特别涉及一种具有自适应噪声检测的非参数聚类方法。

技术介绍

[0002]作为聚类技术的一个重要分支,图聚类方法在数据挖掘和模式识别领域得到了极大的关注。
[0003]构造图主要有三种类型,但各有其局限性。全连通图时间复杂度很高、ε

邻域图参数不容易确定,k

近邻图需要预先设定参数。K

近邻图只存储每个点的k个相邻点的边。由于其简单性,该图及其变体版本在图聚类方法中被广泛应用。例如,使用1

最近邻图来表示数据并查找簇结构;CutPC方法基于的自然临近图进行数据表示、噪声检测和聚类。通过将图的连通分量的判断与簇的数量相加来改进自然邻近图。尽管如此自然邻近图是有局限的,因为它是一个没有权重的无向图。
[0004]尽管自然临近图可以有效地表示数据并挖掘非线性模式,但噪声严重影响聚类结果。因此,名为CutESC的方法使用边缘阈值进行边缘切割,以基于k

近邻图排除噪声。CHKNN设置另一个参数来控制检测噪声的数量,并使用这个参数与每个点的相互最近邻居的数量之间的关系来检测噪声。显然,CHKNN的性能依赖于适当的参数。方法OPS应用基于k

近邻图的重构方法来进行噪声切割,引入LASSO正则化模型和优化方法进行特征选择。CutPC假设每个点的密度不同,它基于邻域密度检测噪声,因此受到密度的严重限制。这些噪声检测方法的共同特点是需要参数,参数的选择将不可避免地影响聚类方法的性能。

技术实现思路

[0005]针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何提供一种不需要参数进行聚类的方法。
[0006]为解决上述技术问题,本专利技术采用如下技术方案:一种具有自适应噪声检测的非参数聚类方法,包括如下步骤:
[0007]S1:构造加权自然邻居图wNaNG来表示原始数据,加权自然邻居图中数据样本由节点表示,数据样本之间的相似性由距离权重表示,数据样本与邻居的连接关系由连接边表示,构造的wNaNG由连接矩阵C
ij
表示,C
ij
的每个元素对应于wNaNG的一条连接边e
ij

[0008]S2:非参数噪声检测,从加权自然邻居图中提取五个连通属性,并通过五个连通属性将原始数据划分为干净数据和噪声,所述五个连通属性包括双向自然邻居数、反向邻居数、领域密度和反向领域密度以及每个对象的方向多样性;
[0009]从wNaNG中移除噪声所对应节点和边缘节点以及连接到噪声所对应节点和边缘节点的连接边获得干净数据集和纯连接矩阵;
[0010]S3:聚类并将噪声分别分配给它们最近的簇,使用Tarjan方法搜索干净数据的加权自然邻近图中的强连通分量,强连通分量的数量是原始数据集中簇的数量,然后将移除噪声所对应节点和边缘节点分配给最近的簇。
[0011]作为改进,所述S1中构造wNaNG的具体步骤如下:
[0012]给定自然集中的数据集V={x1,x2,

,x
n
},其中包含n个数据样本,其中d∈N,其中d表示数据的维度,N表示自然数,x
n
表示第n个数据样本;
[0013]加权自然临近图由G=(V,E)表示,E为所有连接边的集合,并且有ν是μ的自然邻居,μ表示V中的一个数据样本,节点之间的连接边e
ij
定义如式(1)所示:
[0014][0015]其中w
ij
表示距离d(x
i
,x
j
),其中x
i
,x
j
分别表示第i个数据样本和第j个数据样本,NaN(x
j
)表示x
j
的自然邻居。
[0016]作为改进,所述S2中从加权自然邻居图中提取五个连通属性的步骤如下:
[0017]领域密度:x
i
的邻域密度定义为x
i
到所有邻居的平均距离,如式(2)所示
[0018][0019]其中k是自然邻域特征值λ,即x
i
的邻居数;
[0020]反向领域密度:x
i
的反向邻域密度定义为所有反向邻居到x
i
的平均距离,如式(3)所示。
[0021][0022]其中,k
r
是x
i
的反向邻居数量,RNN
k
(x
i
)表示点x
i
的反向邻居集;
[0023]方向多样性:x
i
的方向多样性为所有邻居方向向量的模,如式(4)所示。
[0024][0025]a
j

,a
j"
∈M,M={a
j
|a
j
=x
i

x
j
,x
j
∈NaN(x
i
)}
[0026]其中k是自然邻域特征值λ,即x
i
的邻居数。NaN(x
i
)表示点x
i
的邻域,M是x
i
的邻域方向向量集,a
j

,a
j"
表示邻域方向。
[0027]双向自然连通数:双向自然连通对是x
i
的双向自然连通对的数量,双向自然连通对表示将彼此视自然邻居的两个节点,其定义如下:
[0028][0029]反向邻居:对象x
i
的反向邻居是数据集D的子集,包括以x
i
为其k

近邻的所有节点,定义如下所示:
[0030]RNN
k
(x
i
)={x
j
∈D|x
i
∈NN
k
(x
j
)}
ꢀꢀꢀꢀꢀꢀ
式(6)
[0031]反向邻居数即为对象x
i
的反向邻居的个数。
[0032]作为改进,所述S2中通过五个连通属性将原始数据划分为干净数据和噪声的具体步骤为:应用无监督聚类方法将原始数据聚类为数据簇或者噪声簇两个簇,将样本中心的
双向自然连通数Bi、反向连通性和反向邻域密度高于阈值A,并且方向多样性和邻域密度低于阈值B的簇识别为噪声簇。
[0033]作为改进,所述S3中将移除噪声所对应节点和边缘节点分配给最近的簇的步骤为:
[0034]对噪声所对应节点的邻居的类别进行统计,以获得众数聚类类别,众数聚类类别所在的簇恰好是该噪声所对应节点应该属于的簇,噪声所对应节点及边缘节点的类标签分配公式如式(7)所示:
[0035][0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具有自适应噪声检测的非参数聚类方法,其特征在于,包括如下步骤:S1:构造加权自然邻居图wNaNG来表示原始数据,加权自然邻居图中数据样本由节点表示,数据样本之间的相似性由距离权重表示,数据样本与邻居的连接关系由连接边表示,构造的wNaNG由连接矩阵C
ij
表示,C
ij
的每个元素对应于wNaNG的一条连接边e
ij
;S2:非参数噪声检测,从加权自然邻居图中提取五个连通属性,并通过五个连通属性将原始数据划分为干净数据和噪声,所述五个连通属性包括双向自然邻居数、反向邻居数、领域密度和反向领域密度以及每个对象的方向多样性;从wNaNG中移除噪声所对应节点和边缘节点以及连接到噪声所对应节点和边缘节点的连接边获得干净数据集和纯连接矩阵;S3:聚类并将噪声分别分配给它们最近的簇,使用Tarjan方法搜索干净数据的加权自然邻近图中的强连通分量,强连通分量的数量是原始数据集中簇的数量,然后将移除噪声所对应节点和边缘节点分配给最近的簇。2.如权利要求1所述的具有自适应噪声检测的非参数聚类方法,其特征在于:所述S1中构造wNaNG的具体步骤如下:给定自然集中的数据集V={x1,x2,

,x
n
},其中包含n个数据样本,其中d∈N,其中d表示数据的维度,N表示自然数,x
n
表示第n个数据样本;加权自然临近图由G=(V,E)表示,E为所有连接边的集合,并且有ν是μ的自然邻居,μ表示V中的一个数据样本,节点之间的连接边e
ij
定义如式(1)所示:其中w
ij
表示距离d(x
i
,x
j
),其中x
i
,x
j
分别表示第i个数据样本和第j个数据样本,NaN(x
j
)表示x
j
的自然邻居。3.如权利要求2所述的具有自适应噪声检测的非参数聚类方法,其特征在于:所述S2中从加权自然邻居图中提取五个连通属性的步骤如下:领域密度:x
i
的邻域密度定义为x
i
到所有邻居的平均距离,如式(2)所示其中k是自然邻域特征值λ,即x
i
的邻居数;反向领域密度:x
i
的反向邻域密度定义为所有反向邻居到x
i
的平均距离,如式(3)所示。其中,k
r

【专利技术属性】
技术研发人员:宋承云李琳
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1