一种缺失条件下的高斯混合模型聚类机器学习方法技术

技术编号：29157950 阅读：24 留言：0更新日期：2021-07-06 22:57

本发明专利技术公开了一种缺失条件下的高斯混合模型聚类机器学习方法，包括：S11.获取聚类任务和目标数据样本；S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；S13.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。本发明专利技术将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类。

全部详细技术资料下载

【技术实现步骤摘要】
一种缺失条件下的高斯混合模型聚类机器学习方法
本专利技术涉及计算机视觉和模式识别
，尤其涉及一种缺失条件下的高斯混合模型聚类机器学习方法。
技术介绍
近年来，聚类学习算法在人工智能机器学习领域中，仍然是一个非常值得关注且重要的研究热点。聚类是一种非常重要的无监督学习方法，其目的是在已给定了一组数据的条件下，按照数据间互相的相似性来划分为不同的簇，该划分将使得属于同一个簇的样本的相似性尽可能高，即尽量相似；使得属于不同的簇的样本差异性尽可能高，即尽量不相似。换种说法，聚类是将数据样本或特征向量等无监督地分类为一个个组簇。在许多研究背景领域中和很多研究者的努力下，聚类学习的主要问题目前已经得到了解决，这反映了它作为探索性数据分析步骤之一的广泛吸引力和实用性。然而，聚类方法的相互结合和改善仍然是一个比较难的问题，不同的研究背景和科学领域中，常常有着很多差异与不同的假设，这使得常见且有效的一些通用的概念和方法的转移结合都会发展得很慢。目前一些传统常见的聚类方法主要包括：K均值(K–means)聚类、C均值(C–means)聚类、Dbscan聚类及高斯混合模型(GMM)聚类等。由于高斯分布的普适性和广泛性以及混合模型对多模态数据的较好拟合，导致了高斯混合模型能够比较好地处理大规模多模态的数据。并且目前高斯混合模型聚类已经得到了广泛的研究和应用，并且也取得了比较好的结果。上述的聚类算法在机器学习、模式识别、机器视觉、数据挖掘等领域被广泛研究，并已成功应用于轨迹线分析、异常检测、目标跟踪、图像分割、场景发现、社交网络...

【技术保护点】
1.一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，包括：/nS1.获取聚类任务和目标数据样本；/nS2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；/nS3.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；/nS4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。/n

【技术特征摘要】
1.一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，包括：
S1.获取聚类任务和目标数据样本；
S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；
S3.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；
S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。

2.根据权利要求1所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数，表示为：

其中，X表示目标数据样本矩阵；k表示聚类个数；xj表示每个样本，1≤j≤n；xj(oj)表示可观测特征部分；xj(mj)表示缺失特征部分。

3.根据权利要求2所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中还包括定义高斯混合概率分布，表示为：
pM(X)＝∑αip(xj|μi,∑i)(2)
其中，μi和∑i分别表示第i个高斯混合分量的参数；αi表示高斯混合分量所对应的混合系数，满足p(xj|μi,∑i)表示第i个高斯混合分量对应的第j个采样值的概率密度。

4.根据权利要求3所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述第i个高斯混合分量对应的第j个采样值的概率密度p(xj|μi,∑i)，表示为：

其中，xT表示x的转置。

5.根据权利要求4所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中还包括引入随机变量zj∈{1,2,…,j}来表示样本xj对应的高斯混合分量，具体为：
zj的先验概率P(zj＝i)对应于αi(i＝1,2,…k)，根据贝叶斯定理，zj的后验概率分布表示为：

其中，l表示第i个高斯混合分量，表示对所有高斯混合分量对应的第j个样本的概率密度的加权和；后验概率分布pM(zj＝i|xj)表示样本xj属于第i个高斯混合分量。

6.根据权利要求5所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，表示为：
LL(X)＝ln(∏pM(xj))＝∑ln(∑αi...

【专利技术属性】
技术研发人员：朱信忠，徐慧英，张毅，刘新旺，赵建民，
申请(专利权)人：浙江师范大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人