一种数据均衡化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33917170 阅读:15 留言:0更新日期:2022-06-25 20:26
本发明专利技术公开了一种数据均衡化方法、装置、电子设备及存储介质,方法包括:将表格中每条数据包含的变量取值转化为数值型取值,每条数据包括自变量取值和目标变量取值;按照目标变量取值将表格中的数据划分为多数类和少数类;对多数类中的数据进行聚类,并根据各个聚类的数据占比对多数类数据进行欠采样抽取得到多数类的欠采样结果;采用预设的随机扰动策略对少数类中的数据进行过采样抽取得到少数类的过采样结果;合并欠采样结果和过采样结果得到均衡后的数据。通过对多数类数据聚类实现欠采样抽取,使得抽取数据对多数类具有较强的代表性。并通过随机扰动策略实现欠采样抽取,可以避免对少数类数据简单重复造成后续模型训练过拟合问题。过拟合问题。过拟合问题。

【技术实现步骤摘要】
一种数据均衡化方法、装置、电子设备及存储介质


[0001]本专利技术涉及大数据
,具体涉及一种数据均衡化方法、装置、电子设备及存储介质。

技术介绍

[0002]表格数据是一种十分常见的数据格式,一个表格一般包含多个字段,每个字段有明确的含义。比如,客户贷款欺诈预测场景下的客户信息表,该表可以记录客户的“年龄”、“性别”、“教育水平”、“贷款金额”等变量,这些变量称为自变量,“是否违约”为目标变量,目标变量需要依据自变量的取值预测取值。在对表格数据进行建模时,许多模型都假设了目标变量的数据分布是均衡的,但是现实中表格数据分布是不均衡的,例如客户贷款欺诈预测问题中,进行贷款欺诈的客户占比往往不到10%,非欺诈客户占比则有90%以上。因此,对表格数据的均衡化处理显得十分必要。

技术实现思路

[0003]本专利技术的目的是针对上述现有技术的不足提出的一种数据均衡化方法、装置、电子设备及存储介质,该目的是通过以下技术方案实现的。
[0004]本专利技术的第一方面提出了一种数据均衡化方法,所述方法包括:
[0005]将表格中每条数据包含的变量取值转化为数值型取值,每条数据包括自变量取值和目标变量取值;
[0006]按照目标变量取值将表格中的数据划分为多数类和少数类;
[0007]对所述多数类中的数据进行聚类,并根据各个聚类的数据占比对多数类数据进行欠采样抽取,得到多数类的欠采样结果;
[0008]采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取,以得到少数类的过采样结果;
[0009]合并所述欠采样结果和所述过采样结果,得到均衡后的数据。
[0010]本专利技术的第二方面提出了一种数据均衡化装置,所述装置包括:
[0011]数据处理模块,用于将表格中每条数据包含的变量取值转化为数值型取值,每条数据包括自变量取值和目标变量取值;
[0012]划分模块,用于按照目标变量取值将表格中的数据划分为多数类和少数类;
[0013]欠采样模块,用于对所述多数类中的数据进行聚类,并根据各个聚类的数据占比对多数类数据进行欠采样抽取,得到多数类的欠采样结果;
[0014]过采样模块,用于采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取,以得到少数类的过采样结果;
[0015]合并模块,用于合并所述欠采样结果和所述过采样结果,得到均衡后的数据。
[0016]本专利技术的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述
方法的步骤。
[0017]本专利技术的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法的步骤。
[0018]基于上述第一方面和第二方面所述的数据均衡化方法及装置,本专利技术至少具有如下有益效果或优点:
[0019]本方案在对多数类数据进行欠采样时,根据聚类后各个聚类的数据占比来对多数类数据进行欠采样抽取,使得抽取的数据对多数类具有较强的代表性,比随机抽取效果更好。在对少数类数据进行过采样时,本方案采用了随机扰动策略对抽取数据进行随机扰动,可以避免对少数类数据简单重复造成后续模型训练过拟合问题,同时,随机扰动执行效率高,在上万条数据中进行随机扰动可以秒级响应。采用本方案对大规模、严重不均衡的表格数据进行数据均衡化处理效果显著,可以明显提升少数类数据的召回率和精准率。
附图说明
[0020]此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1为本专利技术根据一示例性实施例示出的一种数据均衡化方法的实施例流程图;
[0022]图2为本专利技术根据一示例性实施例示出的一种肘部法则示意图;
[0023]图3为本专利技术根据一示例性实施例示出的一种数据均衡化装置的结构示意图;
[0024]图4为本专利技术根据一示例性实施例示出的一种电子设备的硬件结构示意图图;
[0025]图5为本专利技术根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
[0026]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0027]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0028]应当理解,尽管在本专利技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0029]目前,针对表格数据不均衡问题常采用的均衡化策略包括:
[0030]①
数据随机过采样,即随机重复部分少数类样本。

数据随机欠采样,即随机删除部分多数类样本。

基于近邻样本进行插值的思想生成伪数据,如SMOTE算法。

基于数据分类贡献度的欠采样方法,如One

Sided Selection,该方法认为在分类边界上的点往往对
构建分类模型更重要。
[0031]然而,实验发现以上方法各有不足之处,具体而言:

随机过采样通过随机重复部分少数类样本来实现样本均衡,虽然执行速度快,但是直接进行样本复制会增加模型过拟合的风险。

随机欠采样通过随机删除部分多数类样本,则面临着对多数类样本信息丢失的风险,模型可能欠拟合。

基于近邻样本进行插值生成伪数据的思想在数据维度较高或样本量巨大时运行效率低下,并且在表格数据场景下,每个字段具有特定含义,然而生成的伪数据取值的含义难以解释。

基于样本对分类贡献度进行的欠采样,可以有效剔除多数类中的冗余和噪声点,使得分类边界清晰,但是由于算法复杂度高,在大数据集上运行效率比较低。
[0032]基于此,本专利提出的数据均衡化方法通过同时对多数类杨欠采样,对少数类样本过采样,以实现更好的建模效果。
[0033]具体实现过程为:将表格中每条数据包含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据均衡化方法,其特征在于,所述方法包括:将表格中每条数据包含的变量取值转化为数值型取值,每条数据包括自变量取值和目标变量取值;按照目标变量取值将表格中的数据划分为多数类和少数类;对所述多数类中的数据进行聚类,并根据各个聚类的数据占比对多数类数据进行欠采样抽取,得到多数类的欠采样结果;采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取,以得到少数类的过采样结果;合并所述欠采样结果和所述过采样结果,得到均衡后的数据。2.根据权利要求1所述的方法,其特征在于,所述将表格中每条数据包含的变量取值转化为数值型取值,包括:对每条数据中缺失的变量取值进行填充;将每条数据包含的变量取值进行数据编码,以转换为数值型取值。3.根据权利要求1所述的方法,其特征在于,所述目标变量取值包括两个;按照目标变量取值将表格中的数据划分为多数类和少数类,包括:统计每个目标变量取值的数量,将两个目标变量取值的数量进行比较;将数量大的目标变量取值所属数据划分为多数类;将数量小的目标变量取值所属数据划分为少数类。4.根据权利要求1所述的方法,其特征在于,根据各个聚类的数据占比对多数类数据进行欠采样抽取,得到多数类的欠采样结果,包括:确定每个聚类包含的数据在所述多数类中的数据占比;根据预设均衡比例和所述多数类中的数据总量确定欠采样抽取数量;利用所述欠采样抽取数量和每个聚类的数据占比从相应聚类中抽取数据;将从每个聚类中抽取的数据确定为多数类的欠采样结果。5.根据权利要求1所述的方法,其特征在于,采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取,以得到少数类的过采样结果,包括:从所述少数...

【专利技术属性】
技术研发人员:王彦谢淋马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1