样本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32198927 阅读:20 留言:0更新日期:2022-02-08 16:05
本公开提供了一种样本分类方法、装置、电子设备及存储介质,涉及数据挖掘技术领域,尤其涉及机器学习领域。具体实现方案为:获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;对多个特征向量进行聚类分析,确定待分类样本的目标分类。样本的目标分类。样本的目标分类。

【技术实现步骤摘要】
样本分类方法、装置、电子设备及存储介质


[0001]本公开涉及数据挖掘
,进一步涉及机器学习领域,尤其涉及一种样本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]聚类分析是指将物理或抽象对象的集合分组由类似的对象组成多个类的分析过程。
[0003]相关方案中,采用K均值(K

means)聚类算法描述数据样本,衡量样本间的相似性,以及将样本分类到不同的簇中。但是,在对高维度特征的样本进行聚类时,K

means聚类算法会把毫无关联的样本聚到一起,导致聚类效果较差。

技术实现思路

[0004]本公开提供了一种样本分类方法、装置、电子设备及存储介质,以至少解决相关方案中对于高维度特征的样本进行聚类时准确性低下的技术问题。
[0005]根据本公开的一方面,提供了一种样本分类方法,包括:获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;对多个特征向量进行聚类分析,确定待分类样本的目标分类。
[0006]根据本公开的又一方面,提供了一种样本分类装置,包括:获取模块,用于获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;编码模块,用于采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;聚类模块,用于对多个特征向量进行聚类分析,确定待分类样本的目标分类。
[0007]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的样本分类方法。
[0008]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的样本分类方法。
[0009]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的样本分类方法。
[0010]在本公开中,通过获取待分类样本,待分类样本的样本特征维度大于预设阈值,继而采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量,最后对多个特征向量进行聚类分析,确定待分类样本的目标分类,达到了快速、准确地确定待分类样本的目标分类的目的,实现了提高高维度特征的样本聚类的准确性的效果,从而解决了相关方案中对于高维度特征的样本进行聚类时准确性低下的技术问题。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的一种用于实现样本分类方法的计算机终端(或移动设备)的硬件结构框图;
[0014]图2是根据本公开实施例的一种样本分类方法流程图;
[0015]图3是根据本公开实施例的一种样本分类方法示意图;
[0016]图4是根据本公开实施例的一种样本分类装置的结构框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0019]K

means聚类算法的实现过程为:首先,逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类;其次,对已获得的类依据类间距离进行合并,按照一定的预设标准,停止合并。但是,在对高维度特征的样本进行聚类时,K

means聚类算法会把毫无关联的样本聚到一起,导致聚类效果较差。
[0020]根据本公开实施例,提供了一种样本分类方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0021]本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现样本分类方法的计算机终端(或移动设备)的硬件结构框图。
[0022]如图1所示,计算机终端100包括计算单元101,其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序,来执行各种适当的动作和处理。在RAM 103中,还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
[0023]计算机终端100中的多个部件连接至I/O接口105,包括:输入单元106,例如键盘、鼠标等;输出单元107,例如各种类型的显示器、扬声器等;存储单元108,例如磁盘、光盘等;以及通信单元109,例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0024]计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的样本分类方法。例如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本分类方法,包括:获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;对所述多个特征向量进行聚类分析,确定所述待分类样本的目标分类。2.根据权利要求1所述的样本分类方法,其中,所述多种特征编码方式中每种特征编码方式分别用于所述待分类样本的样本特征维度降维至不同维度的特征向量。3.根据权利要求1所述的样本分类方法,其中,采用所述多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到所述多个特征向量包括:采用主成分分析或线性判别分析的特征编码方式对所述待分类样本的样本特征进行特征编码,得到第一特征向量;采用回归预测特征编码方式对所述待分类样本的样本特征进行特征编码,得到第二特征向量;采用深度神经网络特征编码方式对所述待分类样本的样本特征进行特征编码,得到第三特征向量。4.根据权利要求3所述的样本分类方法,其中,所述第一特征向量的特征维度小于所述第三特征向量的特征维度,且所述第三特征向量的特征维度小于所述第二特征向量的特征维度。5.根据权利要求1所述的样本分类方法,其中,所述样本分类方法还包括:设置多个样本簇,其中,所述多个样本簇用于在对所述多个特征向量进行聚类分析之后,确定所述多个特征向量中每个特征向量归属的样本簇。6.根据权利要求5所述的样本分类方法,其中,对所述多个特征向量进行聚类分析,确定所述目标分类包括:对所述多个特征向量进行聚类分析,分别确定所述多个特征向量中每个特征向量归属的样本簇,得到聚类结果;利用投票机制从所述聚类结果中确定所述目标分类。7.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:利用所述投票机制从所述多个候选簇中选取目标簇,其中,所述目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;通过所述目标簇确定所述目标分类。8.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:利用所述投票机制确定所述多个候选簇的每个候选簇中包含的特征向量数目相同;通过所述多个候选簇中的默认簇确定所述目标分类。9.一种样本分类装置,包括:获取模块,用于获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈
值;编码模块,用于采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;聚类模块,用于对所述多个特征向量进行聚类分析,...

【专利技术属性】
技术研发人员:刘昊骋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1