一种缺失条件下的高斯混合模型聚类机器学习方法技术

技术编号:29157950 阅读:24 留言:0更新日期:2021-07-06 22:57
本发明专利技术公开了一种缺失条件下的高斯混合模型聚类机器学习方法,包括:S11.获取聚类任务和目标数据样本;S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;S13.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。本发明专利技术将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。

【技术实现步骤摘要】
一种缺失条件下的高斯混合模型聚类机器学习方法
本专利技术涉及计算机视觉和模式识别
,尤其涉及一种缺失条件下的高斯混合模型聚类机器学习方法。
技术介绍
近年来,聚类学习算法在人工智能机器学习领域中,仍然是一个非常值得关注且重要的研究热点。聚类是一种非常重要的无监督学习方法,其目的是在已给定了一组数据的条件下,按照数据间互相的相似性来划分为不同的簇,该划分将使得属于同一个簇的样本的相似性尽可能高,即尽量相似;使得属于不同的簇的样本差异性尽可能高,即尽量不相似。换种说法,聚类是将数据样本或特征向量等无监督地分类为一个个组簇。在许多研究背景领域中和很多研究者的努力下,聚类学习的主要问题目前已经得到了解决,这反映了它作为探索性数据分析步骤之一的广泛吸引力和实用性。然而,聚类方法的相互结合和改善仍然是一个比较难的问题,不同的研究背景和科学领域中,常常有着很多差异与不同的假设,这使得常见且有效的一些通用的概念和方法的转移结合都会发展得很慢。目前一些传统常见的聚类方法主要包括:K均值(K–means)聚类、C均值(C–means)聚类、Dbscan聚类及高斯混合模型(GMM)聚类等。由于高斯分布的普适性和广泛性以及混合模型对多模态数据的较好拟合,导致了高斯混合模型能够比较好地处理大规模多模态的数据。并且目前高斯混合模型聚类已经得到了广泛的研究和应用,并且也取得了比较好的结果。上述的聚类算法在机器学习、模式识别、机器视觉、数据挖掘等领域被广泛研究,并已成功应用于轨迹线分析、异常检测、目标跟踪、图像分割、场景发现、社交网络等诸多场景。然而尽管现有的聚类算法在理论上和实际应用中均已取得了极大成功,但是上述的聚类算法通常都共享一个基本假设:所有数据样本的特征都是可观测的,也就是说每一个数据样本的每一个特征都没缺失。然而,在许多聚类算法的实际应用的数据收集过程中,经常会遇到无法正确收集到某些测量值或某个变量的全部测量值,因此也就造成了很多数据集中常常存在变量的特征值出现缺失的情况,从而使得聚类性能降低。不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值,然后利用一种标准的聚类算法进行聚类。一些常用的填补算法有零填充、均值填充、k近邻填充和期望最大化填充算法和其他改进算法。这些方法试图通过预处理来减少缺失数据对聚类产生的负面影响,尽管在各种应用中展现了很好的聚类性能,但是上述算法有一个共同的缺点,它们的数据填补和聚类过程是分开进行的,导致缺失特征的填补过程不能服务于聚类任务,这抑制了两个过程之间相互的引导协调,进而降低了聚类性能。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种缺失条件下的高斯混合模型聚类机器学习方法。为了实现以上目的,本专利技术采用以下技术方案:一种缺失条件下的高斯混合模型聚类机器学习方法,包括:S1.获取聚类任务和目标数据样本;S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;S3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。进一步的,所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:其中,X表示目标数据样本矩阵;k表示聚类个数;xj表示每个样本,1≤j≤n;xj(oj)表示可观测特征部分;xj(mj)表示缺失特征部分。进一步的,所述步骤S3中还包括定义高斯混合概率分布,表示为:pM(X)=∑αip(xj|μi,∑i)(2)其中,μi和∑i分别表示第i个高斯混合分量的参数;αi表示高斯混合分量所对应的混合系数,满足表示第i个高斯混合分量对应的第j个采样值的概率密度。进一步的,所述第i个高斯混合分量对应的第j个采样值的概率密度p(xj|μi,∑i),表示为:其中,xT表示x的转置。进一步的,所述步骤S3中还包括引入随机变量zj∈{1,2,…,j}来表示样本xj对应的高斯混合分量,具体为:zj的先验概率P(zj=i)对应于αi(i=1,2,…k),根据贝叶斯定理,zj的后验概率分布表示为:其中,l表示第i个高斯混合分量,表示对所有高斯混合分量对应的第j个样本的概率密度的加权和;后验概率分布pM(zj=i|xj)表示样本xj属于第i个高斯混合分量。进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,表示为:其中,μi和∑i分别表示第i个高斯混合分量的参数;αi表示高斯混合分量所对应的混合系数。进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为:利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。进一步的,所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括:根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:其中,γji=pM(zj=i|xj)表示高斯混合分量的后验概率。进一步的,所述步骤S4具体为:S41.固定目标数据样本矩阵X,优化参数αi、μi和Σi;将目标函数划分为k个子问题,表示为:S42.固定α、μ和Σ,优化目标数据样本矩阵X;将目标函数划分为n个子问题,表示为:令xm表示目标函数的解,则将均值μi和协方差矩阵Σi以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分,表示为:其中,m表示矩阵的缺失部分,o表示矩阵的可观测部分;求解公式(8)对xm的偏导数,并令xm的偏导数等于零,则得到的解析解表示为:其中,Pi=p(xj|μi,∑i)。进一步的,所述步骤S41具体包括:S411.固定αi、Σi和X,优化参数μi;在αi和Σi固定的情况下,求公式(7)对μi的偏导数并使其等于零,表示为:S412.固定αi、μi和X,优化参数Σi;在αi和μi固定的情况下,求公式(7)对于Σi的偏导数并使其等于零,表示为:S413.固定μi、Σi和X,优化参数αi;对于αi,由于考虑拉格朗日形式:其中,λ表示一个拉格朗日乘子,通过求对于αi的导数并使其等于零,获得αi的更新值,表示为:其中,m表示矩阵的缺失部分。与现有技术相比,本专利技术提出了一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。本专利技术使得填充和聚类两个过程能够互相引导协调,通过使用高斯本文档来自技高网
...

【技术保护点】
1.一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,包括:/nS1.获取聚类任务和目标数据样本;/nS2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;/nS3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;/nS4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。/n

【技术特征摘要】
1.一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,包括:
S1.获取聚类任务和目标数据样本;
S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;
S3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;
S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。


2.根据权利要求1所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:



其中,X表示目标数据样本矩阵;k表示聚类个数;xj表示每个样本,1≤j≤n;xj(oj)表示可观测特征部分;xj(mj)表示缺失特征部分。


3.根据权利要求2所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中还包括定义高斯混合概率分布,表示为:
pM(X)=∑αip(xj|μi,∑i)(2)
其中,μi和∑i分别表示第i个高斯混合分量的参数;αi表示高斯混合分量所对应的混合系数,满足p(xj|μi,∑i)表示第i个高斯混合分量对应的第j个采样值的概率密度。


4.根据权利要求3所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述第i个高斯混合分量对应的第j个采样值的概率密度p(xj|μi,∑i),表示为:



其中,xT表示x的转置。


5.根据权利要求4所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中还包括引入随机变量zj∈{1,2,…,j}来表示样本xj对应的高斯混合分量,具体为:
zj的先验概率P(zj=i)对应于αi(i=1,2,…k),根据贝叶斯定理,zj的后验概率分布表示为:



其中,l表示第i个高斯混合分量,表示对所有高斯混合分量对应的第j个样本的概率密度的加权和;后验概率分布pM(zj=i|xj)表示样本xj属于第i个高斯混合分量。


6.根据权利要求5所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,表示为:
LL(X)=ln(∏pM(xj))=∑ln(∑αi...

【专利技术属性】
技术研发人员:朱信忠徐慧英张毅刘新旺赵建民
申请(专利权)人:浙江师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1