【技术实现步骤摘要】
样本分类方法、装置、电子设备及存储介质
[0001]本公开涉及数据挖掘
,进一步涉及机器学习领域,尤其涉及一种样本分类方法、装置、电子设备及存储介质。
技术介绍
[0002]聚类分析是指将物理或抽象对象的集合分组由类似的对象组成多个类的分析过程。
[0003]相关方案中,采用K均值(K
‑
means)聚类算法描述数据样本,衡量样本间的相似性,以及将样本分类到不同的簇中。但是,在对高维度特征的样本进行聚类时,K
‑
means聚类算法会把毫无关联的样本聚到一起,导致聚类效果较差。
技术实现思路
[0004]本公开提供了一种样本分类方法、装置、电子设备及存储介质,以至少解决相关方案中对于高维度特征的样本进行聚类时准确性低下的技术问题。
[0005]根据本公开的一方面,提供了一种样本分类方法,包括:获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;对多个特征向量进行聚类分析,确定待分类样本的目标分类。
[0006]根据本公开的又一方面,提供了一种样本分类装置,包括:获取模块,用于获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;编码模块,用于采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;聚类模块,用于对多个特征向量进行聚类分析,确定待分类样本的目标分类。
[0007]根据本公开的又一方面,提供了一种电子设备,包括:至 ...
【技术保护点】
【技术特征摘要】
1.一种样本分类方法,包括:获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;对所述多个特征向量进行聚类分析,确定所述待分类样本的目标分类。2.根据权利要求1所述的样本分类方法,其中,所述多种特征编码方式中每种特征编码方式分别用于所述待分类样本的样本特征维度降维至不同维度的特征向量。3.根据权利要求1所述的样本分类方法,其中,采用所述多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到所述多个特征向量包括:采用主成分分析或线性判别分析的特征编码方式对所述待分类样本的样本特征进行特征编码,得到第一特征向量;采用回归预测特征编码方式对所述待分类样本的样本特征进行特征编码,得到第二特征向量;采用深度神经网络特征编码方式对所述待分类样本的样本特征进行特征编码,得到第三特征向量。4.根据权利要求3所述的样本分类方法,其中,所述第一特征向量的特征维度小于所述第三特征向量的特征维度,且所述第三特征向量的特征维度小于所述第二特征向量的特征维度。5.根据权利要求1所述的样本分类方法,其中,所述样本分类方法还包括:设置多个样本簇,其中,所述多个样本簇用于在对所述多个特征向量进行聚类分析之后,确定所述多个特征向量中每个特征向量归属的样本簇。6.根据权利要求5所述的样本分类方法,其中,对所述多个特征向量进行聚类分析,确定所述目标分类包括:对所述多个特征向量进行聚类分析,分别确定所述多个特征向量中每个特征向量归属的样本簇,得到聚类结果;利用投票机制从所述聚类结果中确定所述目标分类。7.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:利用所述投票机制从所述多个候选簇中选取目标簇,其中,所述目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;通过所述目标簇确定所述目标分类。8.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:利用所述投票机制确定所述多个候选簇的每个候选簇中包含的特征向量数目相同;通过所述多个候选簇中的默认簇确定所述目标分类。9.一种样本分类装置,包括:获取模块,用于获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈
值;编码模块,用于采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;聚类模块,用于对所述多个特征向量进行聚类分析,...
【专利技术属性】
技术研发人员:刘昊骋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。