分类模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36038107 阅读：13 留言：0更新日期：2022-12-21 10:42

本发明专利技术公开了一种分类模型训练方法、装置、电子设备及存储介质。该方法包括：获取初始样本数据集，其中，所述初始样本数据集包括第一数据子集和第二数据子集，所述第一数据子集的样本数量大于所述第二数据子集的样本数量；基于第一权重在第一数据子集中进行数据抽样，以及基于第二权重在第二数据子集中进行数据抽样，得到训练数据集，其中，所述第一权重小于所述第二权重；基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的分类模型进行训练，得到目标分类模型。上述技术方案，提高了不平衡数据集下的分类效果。提高了不平衡数据集下的分类效果。提高了不平衡数据集下的分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据处理
，尤其涉及一种分类模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]在银行客户分类情景中，优质客户和信用较差客户仅占总客户的一小部分，而这两种类别的分类结果又及其重要。
[0003]目前多数机器学习分类算法在上述不平衡数据集下的分类效果较差。

技术实现思路

[0004]本专利技术提供了一种分类模型训练方法、装置、电子设备及存储介质，以提高不平衡数据集下的分类效果。
[0005]根据本专利技术的一方面，提供了一种分类模型训练方法，包括：
[0006]获取初始样本数据集，其中，所述初始样本数据集包括第一数据子集和第二数据子集，所述第一数据子集的样本数量大于所述第二数据子集的样本数量；
[0007]基于第一权重在第一数据子集中进行数据抽样，以及基于第二权重在第二数据子集中进行数据抽样，得到训练数据集，其中，所述第一权重小于所述第二权重；
[0008]基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的分类模型进行训练，得到目标分类模型。
[0009]根据本专利技术的另一方面，提供了一种分类模型训练装置，包括：
[0010]初始样本数据集获取模块，用于获取初始样本数据集，其中，所述初始样本数据集包括第一数据子集和第二数据子集，所述第一数据子集的样本数量大于所述第二数据子集的样本数量；
[0011]数据抽样模块，用于基于第一权重在第...

【技术保护点】

【技术特征摘要】
1.一种分类模型训练方法，其特征在于，包括：获取初始样本数据集，其中，所述初始样本数据集包括第一数据子集和第二数据子集，所述第一数据子集的样本数量大于所述第二数据子集的样本数量；基于第一权重在第一数据子集中进行数据抽样，以及基于第二权重在第二数据子集中进行数据抽样，得到训练数据集，其中，所述第一权重小于所述第二权重；基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的分类模型进行训练，得到目标分类模型。2.根据权利要求1所述的方法，其特征在于，所述分类模型为随机森林模型；相应的，所述基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的分类模型进行训练，得到目标分类模型，包括：基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的随机森林模型进行训练，得到目标分类模型；其中，所述目标分类模型包括多个决策树。3.根据权利要求2所述的方法，其特征在于，所述样本数据包括属性信息和阈值信息；相应的，所述基于所述训练数据集中的样本数据和所述样本数据对应的分类结果，对待训练的随机森林模型进行训练，得到目标分类模型，包括：根据所述样本数据的属性信息和阈值信息，对所述随机森林模型中初始决策树进行分裂，直至满足分裂停止条件，得到多个决策树；根据多个所述决策树构建目标分类模型。4.根据权利要求3所述的方法，其特征在于，所述分裂停止条件包括：所述训练数据集的数量为一条；或者，决策树节点规模值小于等于节点规模阈值；或者，决策树节点深度值大于等于节点深度阈值。5.根据权利要求1所述的方法，其特征在于，所述第一数据子集为银行普通用户信用信息，所述第二数据子集为银行优质用户信用信息。...

【专利技术属性】
技术研发人员：文一帆，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人