群体信息分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21300798 阅读:21 留言:0更新日期:2019-06-12 08:14
本申请涉及一种人工智能领域的群体信息分类方法、装置、计算机设备和存储介质。所述方法包括:接收分类任务,所述分类任务携带群体标识;根据所述群体标识获取群体信息,识别所述群体信息对应的第一连续变量以及离散变量;对所述离散变量进行连续化处理,得到所述群体信息对应的第二连续变量;将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量;将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果。采用本方法能够避免不同类型变量之间的距离权重划分对群体信息对应的分类结果的影响,提高群体信息对应的分类结果的准确性。

Group Information Classification Method, Device, Computer Equipment and Storage Media

This application relates to a group information classification method, device, computer equipment and storage medium in the field of artificial intelligence. The method includes: receiving classification task, which carries group identification; acquiring group information according to the group identification, identifying the first continuous variable and discrete variable corresponding to the group information; continuous processing of the discrete variable to obtain the second continuous variable corresponding to the group information; and taking the first continuous variable and the second continuous variable as the first continuous variable. The standardized variables corresponding to the group information are obtained by standardization processing, and the standardized variables corresponding to the group information are clustered to obtain the classification results corresponding to the group information. This method can avoid the influence of distance weight division between different types of variables on the classification results of group information, and improve the accuracy of the classification results of group information.

【技术实现步骤摘要】
群体信息分类方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种群体信息分类方法、装置、计算机设备和存储介质。
技术介绍
企业针对不同的业务需求,需要通过对群体进行类型划分,以此了解不同群体的特征。在进行类型划分时,涉及到的信息包括与群体信息对应的连续变量和离散变量。在传统方式中,通过度量连续变量两两之间的距离及离散变量两两之间的距离,将度量出的两种类型变量的距离进行权重划分,得到最终的聚类结果,从而得到群体分类结果。但是,对于权重的大小并不能准确地进行计算,导致权重的不同使群体分类结果不准确。
技术实现思路
基于此,有必要针对上述技术问题,提供一种提高群体信息对应的分类结果的准确性的群体信息分类方法、装置、计算机设备和存储介质。一种群体信息分类方法,所述方法包括:接收分类任务,所述分类任务携带群体标识;根据所述群体标识获取群体信息,识别所述群体信息对应的第一连续变量以及离散变量;对所述离散变量进行连续化处理,得到所述群体信息对应的第二连续变量;将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量;将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果。在其中一个实施例中,所述对所述离散变量进行连续化处理包括:在所述群体信息中获取与所述离散变量对应的多个维度;对所述离散变量对应的多个维度进行编码,得到所述群体信息对应的第二连续变量。在其中一个实施例中,所述将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量包括:计算所述群体信息中所述第一连续变量以及第二连续变量的均值及标准差;根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系,得到所述群体信息对应的标准化变量。在其中一个实施例中,所述将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果包括:对所述群体信息对应的标准化变量进行距离度量;根据度量后的标准化变量之间的距离对所述标准化变量进行聚类,得到多种标准化变量类型;根据所述多种标准化变量类型获取所述群体信息对应的分类结果。在其中一个实施例中,所述方法还包括:对所述群体信息对应的分类结果进行分析,得到多种群体类型的区别特征;将每种群体类型的区别特征与所述群体信息对应的分类结果中其他群体类型的相同区别特征进行特征值对比,得到每种群体类型的群体特征。一种群体信息分类装置,所述装置包括:通信模块,用于接收分类任务,所述分类任务携带群体标识;变量识别模块,用于根据所述群体标识获取群体信息,识别所述群体信息对应的第一连续变量以及离散变量;变量处理模块,用于对所述离散变量进行连续化处理,得到所述群体信息对应的第二连续变量;将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的准化变量;聚类模块,用于将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果。在其中一个实施例中,所述变量处理模块用于在所述群体信息中获取与所述离散变量对应的多个维度;对所述离散变量对应的多个维度进行编码,得到所述群体信息对应的第二连续变量。在其中一个实施例中,所述变量处理模块用于计算所述群体信息对应的所述第一连续变量以及第二连续变量的均值及标准差;根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系,得到所述群体信息对应的标准化变量。一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中群体信息分类方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中群体信息分类方法的步骤。上述群体信息分类方法、装置、计算机设备和存储介质,通过识别群体信息对应的第一连续变量以及离散变量,对离散变量进行连续化处理,得到群体信息对应的第二连续变量。将第一连续变量以及第二连续变量进行标准化处理,得到群体信息对应的标准化变量,再将标准化变量进行聚类,得到群体信息对应的分类结果。相对于传统方式,在不需要设置权重的情况下能够对离散变量进行距离度量,避免不同类型变量之间的距离权重划分对群体分类结果的影响,提高群体信息对应的分类结果的准确性。附图说明图1为一个实施例中群体信息分类方法的应用环境图;图2为一个实施例中群体信息分类方法的流程示意图;图3为一个实施例中对离散变量进行连续化处理步骤的流程示意图;图4为一个实施例中群体信息分类装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的群体信息分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104接收终端102上传的分类任务,该分类任务携带群体标识。服务器104根据群体标识获取群体信息,识别群体信息对应的第一连续变量以及离散变量。服务器104对离散变量进行连续化处理,得到群体信息对应的第二连续变量。服务器104对第一连续变量以及第二连续变量进行标准化处理,得到群体信息对应的标准化变量。服务器104将群体信息对应的标准化变量进行聚类,得到群体信息对应的分类结果,能够在不需要设置权重的情况下能够对离散变量进行距离度量,避免不同类型变量之间的距离权重划分对群体分类结果的影响,提高群体信息对应的分类结果的准确性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种群体信息分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤202,接收分类任务,分类任务携带群体标识。步骤204,根据群体标识获取群体信息,识别群体信息对应的第一连续变量以及离散变量。步骤206,对离散变量进行连续化处理,得到群体信息对应的第二连续变量。服务器接收终端上传的分类任务,对该分类任务进行解析,得到分类任务携带的群体标识。服务器根据群体标识获取对应的群体信息。群体信息可以是预设范围内的一定数量人群的信息。例如,2018年10月份的员工绩效信息。服务器识别群体信息对应的变量。其中,变量包括连续变量以及离散变量。连续变量包括第一连续变量以及第二连续变量。其中,第一连续变量可以通过群体信息直接进行识别得到。第二连续变量需要通过对离散变量进行转化处理才能得到。第一连续变量可以是用数值来进行表示的信息。离散变量可以是用多个维度来进行表示的信息。例如,第一连续变量可以是参加课程的次数、考勤天数、入职年限等。离散变量可以是培训成绩、性别等。服务器在识别群体信息对应的变量后,可对群体信息对应的变量中的离散变量进行连续化处理,服务器在群体信息中获取与离散变量对应的多个维度,对离散变量对应的多个维度进行编码,得到离散变量对应的第二连续变量,此时群体信息对应的变量均为连续变量。例如,服务器接收终端上传的员工群体分类任务,对该分类任务进行解析,得到分类任务携带的本文档来自技高网...

【技术保护点】
1.一种群体信息分类方法,所述方法包括:接收分类任务,所述分类任务携带群体标识;根据所述群体标识获取群体信息,识别所述群体信息对应的第一连续变量以及离散变量;对所述离散变量进行连续化处理,得到所述群体信息对应的第二连续变量;将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量;将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果。

【技术特征摘要】
1.一种群体信息分类方法,所述方法包括:接收分类任务,所述分类任务携带群体标识;根据所述群体标识获取群体信息,识别所述群体信息对应的第一连续变量以及离散变量;对所述离散变量进行连续化处理,得到所述群体信息对应的第二连续变量;将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量;将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对所述离散变量进行连续化处理包括:在所述群体信息中获取与所述离散变量对应的多个维度;对所述离散变量对应的多个维度进行编码,得到所述群体信息对应的第二连续变量。3.根据权利要求1所述的方法,其特征在于,所述将所述第一连续变量以及第二连续变量进行标准化处理,得到所述群体信息对应的标准化变量包括:计算所述群体信息对应的第一连续变量以及第二连续变量的均值及标准差;根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系,得到所述群体信息对应的标准化变量。4.根据权利要求1所述的方法,其特征在于,所述将所述群体信息对应的标准化变量进行聚类,得到所述群体信息对应的分类结果包括:对所述群体信息对应的标准化变量进行距离度量;根据度量后的标准化变量之间的距离对所述标准化变量进行聚类,得到多种标准化变量类型;根据所述多种标准化变量类型获取所述群体信息对应的分类结果。5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:对所述群体信息对应的分类结果进行分析,得到多种群体类...

【专利技术属性】
技术研发人员:邓悦金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1