聚类方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:38135587 阅读:16 留言:0更新日期:2023-07-08 09:46
本申请实施例提供一种聚类方法、装置、电子设备及计算机可读存储介质,其聚类过程主要包括:先构建一聚类特征树确定所述聚类特征树的阈值参数,在所述聚类特征树中从所述根节点向下查找和新样本点距离最近的目标叶节点,再计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率,并将其中高斯概率最大值对应的目标CF节点,最后将所述新样本点加入所述目标CF节点。这样,可以通过计算概率来查找新样本点距离最近的CF节点,更容易适应凹或凸分布而不仅限于超球体,优化后的聚类模型可以对空间分布比较复杂的对象集进行有效类别划分,避免了业务数据空间属性造成的聚类适应问题,从而获得一个具有较低偏差及更为经济的匹配模型。型。型。

【技术实现步骤摘要】
聚类方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及数据存储领域,尤其涉及一种聚类方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]BIRCH层次聚类算法是利用层次方法的平衡迭代规约和聚类的算法,运行速度快,只需要单遍扫描数据集就能进行聚类。
[0003]该算法涉及2个概念:第一,CF(Cluster Feature)聚类特征:它是一个三元组,可以用(N,LS,SS)表示,其中N是代表了这个CF中拥有的样本点的数量,LS代表样本各特征的和,SS代表样本各特征的平方和。
[0004]第二,CF Tree(Cluster Feature Tree)聚类特征树:这棵数可以分为根节点、枝节点和叶节点3类,其中每个节点都是由多个CF构成的。对于一棵CF Tree有3个重要参数:其一,内部节点的最大CF数目,称之为枝平衡因子B;其二,叶子节点的最大CF数目,称之为叶平衡因子L;其三,叶子节点的空间阈值T,计算新的样本点与CF的空间距离,如果小于阈值,则将样本纳入某个CF节点。
[0005]BIRCH算法的主要过程就是建立CF Tree的过程,简述如下:从根节点向下查找和新样本距离最近的叶节点和叶节点里最近的CF节点,如果新样本加入后,这个CF节点对应的超球体半径仍然满足小于阈值T,则更新路径上所有的CF三元组,插入结束。
[0006]BIRCH算法的主要过程就是建立CF Tree的过程,该聚类算法在对对象进行聚类时必须依赖于超球体半径,这就需要对象所组成的数据集的分布簇是类似于超球体,否则BIRCH算法无法进行有效聚类。可见,现有的NIRCH算法的聚类因素较为单一导致适用性较差。

技术实现思路

[0007]为了解决上述技术问题,本申请实施例提供一种聚类方法、装置、电子设备及计算机可读存储介质。
[0008]第一方面,本申请实施例提供了一种聚类方法,所述方法包括:
[0009]构建聚类特征树,并确定所述聚类特征树的阈值参数,其中,所述聚类特征树包括根节点、枝节点和叶节点,各根节点、枝节点和叶节点均存储至少一个CF节点,所述阈值参数包括叶结点内CF节点的最大样本半径对应的第一阈值以及叶节点内可存储CF节点的最大数量对应的第二阈值;
[0010]在所述聚类特征树中从所述根节点向下查找和新样本点距离最近的目标叶节点;
[0011]计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率;
[0012]确定全部高斯概率中的最大值对应的目标CF节点,并将所述新样本点加入所述目标CF节点。
[0013]根据本申请的一种具体实施方式,所述确定全部高斯概率中的最大值对应的目标
CF节点,并将所述新样本点加入所述目标CF节点的步骤,包括:
[0014]确定全部高斯概率中的最大值对应的目标CF节点,并计算所述新样本点加入所述目标CF节点后对应的超球体半径;
[0015]若所述超球体半径小于或者等于所述第三阈值,则将所述新样本点加入所述目标CF节点,并更新从所述根节点至所述目标CF节点之间的全部CF节点;
[0016]若所述超球体半径大于所述第三阈值,则在所述目标叶节点内创建新CF节点,将所述新样本点加入所述新CF节点,并更新从所述根节点至所述目标CF节点之间的全部CF节点。
[0017]根据本申请的一种具体实施方式,所述若所述超球体半径大于所述第三阈值,则在所述目标叶节点内创建新CF节点,将所述新样本点加入所述新CF节点的步骤,包括:
[0018]若所述目标CF节点的超球体半径大于所述第三阈值,在所述目标叶节点内创建新CF节点并将所述新样本点加入所述新CF节点;
[0019]判断所述目标叶节点内的全部CF节点的数量是否小于或者等于所述第二阈值;
[0020]若所述目标叶节点内的全部CF节点的数量小于或者等于所述第二阈值,则将所述新CF节点加入所述目标叶节点;
[0021]若所述目标叶节点内的全部CF节点的数量大于所述第二阈值,将所述目标叶节点分裂为两个新叶节点,并按节点距离将所述目标叶节点内的全部CF节点分别加入对应的新叶节点。
[0022]根据本申请的一种具体实施方式,所述计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率的步骤,包括:
[0023]将所述目标叶节点内各CF节点初始化为对应的簇,并确定每个簇的高斯分布函数;
[0024]根据CF节点内各数据点的信息计算高斯分布函数的概率最大化时的权重参数;
[0025]根据各CF节点对应的高斯分布函数和权重参数,计算所述新样本点属于各CF节点的高斯概率。
[0026]根据本申请的一种具体实施方式,所述确定每个簇的高斯分布函数的步骤,包括:
[0027]将各簇的高斯分布函数初始化为:
[0028][0029]其中,表示高斯概率,α
k(t+1)
表示方差,μ
k(t+1)
表示均值,∑
k(t+1)
表示高斯分布函数。
[0030]根据本申请的一种具体实施方式,所述根据CF节点内各数据点的信息计算高斯分布函数的概率最大化时的权重参数的步骤,包括:
[0031]根据各数据点的信息代入初始化的高斯分布函数至概率最大化,得到权重参数为:
[0032][0033][0034][0035]其中,α
k(t+1)
表示方差,μ
k(t+1)
表示均值,∑
k(t+1)
表示高斯分布函数。
[0036]根据本申请的一种具体实施方式,所述构建聚类特征树的步骤之后,所述方法还包括以下至少一个步骤:
[0037]删除样本点少于点数阈值的异常CF节点,并更新所述根节点至所述异常CF节点之间的全部CF节点;
[0038]合并节点距离小于距离阈值的至少两个第二类异常CF节点。
[0039]第二方面,本申请实施例提供了一种聚类装置,所述装置包括:
[0040]构建模块,用于构建聚类特征树,并确定所述聚类特征树的阈值参数,其中,所述聚类特征树包括根节点、枝节点和叶节点,各根节点、枝节点和叶节点均存储至少一个CF节点,所述阈值参数包括叶结点内CF节点的最大样本半径对应的第一阈值以及叶节点内可存储CF节点的最大数量对应的第二阈值;
[0041]查找模块,用于在所述聚类特征树中从所述根节点向下查找和新样本点距离最近的目标叶节点;
[0042]计算模块,用于计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率;
[0043]添加模块,用于确定全部高斯概率中的最大值对应的目标CF节点,并将所述新样本点加入所述目标CF节点。
[0044]根据本申请的一种具体实施方式,所述添加模块用于:
[0045]确定全部高斯概率中的最大值对应的目标CF节点,并计算所述新样本点加入所述目标CF节点后对应的超球体半径;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类方法,其特征在于,所述方法包括:构建聚类特征树,并确定所述聚类特征树的阈值参数,其中,所述聚类特征树包括根节点、枝节点和叶节点,各根节点、枝节点和叶节点均存储至少一个CF节点,所述阈值参数包括叶结点内CF节点的最大样本半径对应的第一阈值以及叶节点内可存储CF节点的最大数量对应的第二阈值;在所述聚类特征树中从所述根节点向下查找和新样本点距离最近的目标叶节点;计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率;确定全部高斯概率中的最大值对应的目标CF节点,并将所述新样本点加入所述目标CF节点。2.根据权利要求1所述的方法,其特征在于,所述确定全部高斯概率中的最大值对应的目标CF节点,并将所述新样本点加入所述目标CF节点,包括:确定全部高斯概率中的最大值对应的目标CF节点,并计算所述新样本点加入所述目标CF节点后对应的超球体半径;若所述超球体半径小于或者等于第三阈值,则将所述新样本点加入所述目标CF节点,并更新从所述根节点至所述目标CF节点之间的全部CF节点;若所述超球体半径大于所述第三阈值,则在所述目标叶节点内创建新CF节点,将所述新样本点加入所述新CF节点,并更新从所述根节点至所述目标CF节点之间的全部CF节点。3.根据权利要求2所述的方法,其特征在于,所述若所述超球体半径大于所述第三阈值,则在所述目标叶节点内创建新CF节点,将所述新样本点加入所述新CF节点,包括:若所述目标CF节点的超球体半径大于所述第三阈值,在所述目标叶节点内创建新CF节点并将所述新样本点加入所述新CF节点;;判断所述目标叶节点内的全部CF节点的数量是否小于或者等于所述第二阈值;若所述目标叶节点内的全部CF节点的数量小于或者等于所述第二阈值,则将所述新CF节点加入所述目标叶节点;若所述目标叶节点内的全部CF节点的数量大于所述第二阈值,将所述目标叶节点分裂为两个新叶节点,并按节点距离将所述目标叶节点内的全部CF节点分别加入对应的新叶节点。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算所述新样本点属于所述目标叶节点内各CF节点的高斯概率,包括:将所述目标叶节点内各CF节点初始化为对应的簇,并确定每个簇的高斯分布函数;根据CF节点内各数据点的信息计算高斯分布函数的概率最大化时的权重参数;根据各CF节点对应的高斯分布函数和权重参数,计算所述...

【专利技术属性】
技术研发人员:王洪波余涛杨贵锋
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1