System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种样本迁移的大数据风控建模方法与系统技术方案_技高网

一种样本迁移的大数据风控建模方法与系统技术方案

技术编号:40503433 阅读:15 留言:0更新日期:2024-03-01 13:17
提供了一种大数据风控建模方法,方法包括:获取第一样本集合和第二样本集合,其中,第二样本集合是在根据相似性准则与第一样本集合相似的场景下采集的;将第一样本集合随机划分为第一集合和第二集合,其中,第二集合是第一集合的补集;基于第一集合生成第一模型;以及基于第一模型进行建模优化。

【技术实现步骤摘要】

本公开涉及一种样本迁移的大数据风控建模方法与系统


技术介绍

1、随着大数据和人工智能技术的发展,风控技术对机器学习模型的依懒性和认可度逐步加强,风控建模过程中,样本选择十分重要,直接影响模型的区分能力及泛化性能,进而影响相关机构的盈利情况,当前风控建模中样本选择方式过于单一,多数仅为使用单一场景来源的样本直接建模,模型的整体泛化性并不好,难以适应复杂场景的需求。


技术实现思路

1、提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。

2、根据本公开的一方面,提供了一种大数据风控建模方法,方法包括:获取第一样本集合和第二样本集合,其中,第二样本集合是在根据相似性准则与第一样本集合相似的场景下采集的;将第一样本集合随机划分为第一集合和第二集合,其中,第二集合是第一集合的补集;基于第一集合生成第一模型;以及基于第一模型进行建模优化,建模优化包括:从第一集合中随机抽取具有相同样本数量的多个子集,其中每个子集的样本数量小于第一集合的样本数量;基于多个子集分别生成对应数量的多个子模型;将第二样本集合中的每个样本输入多个子模型,以得到多个子模型针对该样本的输出;基于多个子模型针对每个样本的输出,确定该样本是否为高置信度样本;将第二样本集合中所有高置信度样本并入第一集合,以得到第三集合;基于第三集合生成第二模型;在第二集合上应用第一模型和第二模型,以得到第一模型针对第二集合中每个样本的输出和第二模型针对第二集合中每个样本的输出;基于第一模型针对第二集合中每个样本的输出和第二模型针对第二集合中每个样本的输出,根据评估指标确定第二模型是否优于第一模型;以及响应于确定第二模型优于第一模型,选取第二模型作为优化模型。

3、根据本公开的另一方面,提供了一种大数据风控建模装置,包括:第一模块,用于获取第一样本集合和第二样本集合,其中,第二样本集合是在根据相似性准则与第一样本集合相似的场景下采集的;第二模块,用于将第一样本集合随机划分为第一集合和第二集合,其中,第二集合是第一集合的补集;第三模块,用于基于第一集合生成第一模型;以及第四模块,用于基于第一模型进行建模优化,第四模块包括:第一子模块,用于从第一集合中随机抽取具有相同样本数量的多个子集,其中每个子集的样本数量小于第一集合的样本数量;第二子模块,用于基于多个子集分别生成对应数量的多个子模型;第三子模块,用于将第二样本集合中的每个样本输入多个子模型,以得到多个子模型针对该样本的输出;第四子模块,用于基于多个子模型针对每个样本的输出,确定该样本是否为高置信度样本;第五子模块,用于将第二样本集合中所有高置信度样本并入第一集合,以得到第三集合;第六子模块,用于基于第三集合生成第二模型;第七子模块,用于在第二集合上应用第一模型和第二模型,以得到第一模型针对第二集合中每个样本的输出和第二模型针对第二集合中每个样本的输出;第八子模块,用于基于第一模型针对第二集合中每个样本的输出和第二模型针对第二集合中每个样本的输出,根据评估指标确定第二模型是否优于第一模型;以及第九子模块,用于响应于确定第二模型优于第一模型,选取第二模型作为优化模型。

4、根据本公开的又另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,其中,计算机程序在被至少一个处理器执行时,使至少一个处理器执行上述的方法。

5、根据本公开的再另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行上述的方法。

6、根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使处理器执行上述的方法。

7、根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。

本文档来自技高网...

【技术保护点】

1.一种大数据风控建模方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1至2中任一项所述的方法,其中,在重新执行所述建模优化时,改变所述多个子集的数量或每个子集中的样本数量中的至少一项。

4.根据权利要求1至2中任一项所述的方法,其中,基于所述多个子模型针对每个样本的输出,确定该样本是否为高置信度样本包括:

5.根据权利要求4所述的方法,其中,在重新执行所述建模优化时,改变所述判定门限。

6.根据权利要求1至2中任一项所述的方法,其中,所述第一模型、所述多个子模型和所述第二模型包括XGBoost或LightGBM。

7.根据权利要求1至2中任一项所述的方法,其中,所述评估指标包括AUC指标或KS指标。

8.一种大数据风控建模装置,包括:

9.一种计算机设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行权利要求1至7中任一项所述的方法。

11.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使所述处理器执行权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种大数据风控建模方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1至2中任一项所述的方法,其中,在重新执行所述建模优化时,改变所述多个子集的数量或每个子集中的样本数量中的至少一项。

4.根据权利要求1至2中任一项所述的方法,其中,基于所述多个子模型针对每个样本的输出,确定该样本是否为高置信度样本包括:

5.根据权利要求4所述的方法,其中,在重新执行所述建模优化时,改变所述判定门限。

6.根据权利要求1至2中任一项所述的方法,其中,所述第一模...

【专利技术属性】
技术研发人员:陈凯杜金栗张誉段伟民陈鑫杨司琛
申请(专利权)人:腾云天宇科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1