一种数据均衡化方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33917170 阅读：15 留言：0更新日期：2022-06-25 20:26

本发明专利技术公开了一种数据均衡化方法、装置、电子设备及存储介质，方法包括：将表格中每条数据包含的变量取值转化为数值型取值，每条数据包括自变量取值和目标变量取值；按照目标变量取值将表格中的数据划分为多数类和少数类；对多数类中的数据进行聚类，并根据各个聚类的数据占比对多数类数据进行欠采样抽取得到多数类的欠采样结果；采用预设的随机扰动策略对少数类中的数据进行过采样抽取得到少数类的过采样结果；合并欠采样结果和过采样结果得到均衡后的数据。通过对多数类数据聚类实现欠采样抽取，使得抽取数据对多数类具有较强的代表性。并通过随机扰动策略实现欠采样抽取，可以避免对少数类数据简单重复造成后续模型训练过拟合问题。过拟合问题。过拟合问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据均衡化方法、装置、电子设备及存储介质

[0001]本专利技术涉及大数据
，具体涉及一种数据均衡化方法、装置、电子设备及存储介质。

技术介绍

[0002]表格数据是一种十分常见的数据格式，一个表格一般包含多个字段，每个字段有明确的含义。比如，客户贷款欺诈预测场景下的客户信息表，该表可以记录客户的“年龄”、“性别”、“教育水平”、“贷款金额”等变量，这些变量称为自变量，“是否违约”为目标变量，目标变量需要依据自变量的取值预测取值。在对表格数据进行建模时，许多模型都假设了目标变量的数据分布是均衡的，但是现实中表格数据分布是不均衡的，例如客户贷款欺诈预测问题中，进行贷款欺诈的客户占比往往不到10％，非欺诈客户占比则有90％以上。因此，对表格数据的均衡化处理显得十分必要。

技术实现思路

[0003]本专利技术的目的是针对上述现有技术的不足提出的一种数据均衡化方法、装置、电子设备及存储介质，该目的是通过以下技术方案实现的。
[0004]本专利技术的第一方面提出了一种数据均衡化方法，所述方法包括：
[0005]将表格中每条数据包含的变量取值转化为数值型取值，每条数据包括自变量取值和目标变量取值；
[0006]按照目标变量取值将表格中的数据划分为多数类和少数类；
[0007]对所述多数类中的数据进行聚类，并根据各个聚类的数据占比对多数类数据进行欠采样抽取，得到多数类的欠采样结果；
[0008]采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取，以得到少数类的...

【技术保护点】

【技术特征摘要】
1.一种数据均衡化方法，其特征在于，所述方法包括：将表格中每条数据包含的变量取值转化为数值型取值，每条数据包括自变量取值和目标变量取值；按照目标变量取值将表格中的数据划分为多数类和少数类；对所述多数类中的数据进行聚类，并根据各个聚类的数据占比对多数类数据进行欠采样抽取，得到多数类的欠采样结果；采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取，以得到少数类的过采样结果；合并所述欠采样结果和所述过采样结果，得到均衡后的数据。2.根据权利要求1所述的方法，其特征在于，所述将表格中每条数据包含的变量取值转化为数值型取值，包括：对每条数据中缺失的变量取值进行填充；将每条数据包含的变量取值进行数据编码，以转换为数值型取值。3.根据权利要求1所述的方法，其特征在于，所述目标变量取值包括两个；按照目标变量取值将表格中的数据划分为多数类和少数类，包括：统计每个目标变量取值的数量，将两个目标变量取值的数量进行比较；将数量大的目标变量取值所属数据划分为多数类；将数量小的目标变量取值所属数据划分为少数类。4.根据权利要求1所述的方法，其特征在于，根据各个聚类的数据占比对多数类数据进行欠采样抽取，得到多数类的欠采样结果，包括：确定每个聚类包含的数据在所述多数类中的数据占比；根据预设均衡比例和所述多数类中的数据总量确定欠采样抽取数量；利用所述欠采样抽取数量和每个聚类的数据占比从相应聚类中抽取数据；将从每个聚类中抽取的数据确定为多数类的欠采样结果。5.根据权利要求1所述的方法，其特征在于，采用预设的随机扰动策略对所述少数类中的数据进行过采样抽取，以得到少数类的过采样结果，包括：从所述少数...

【专利技术属性】
技术研发人员：王彦，谢淋，马骏，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人