System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于决策树模型的二代征信特征衍生系统及装置制造方法及图纸_技高网

一种基于决策树模型的二代征信特征衍生系统及装置制造方法及图纸

技术编号:41396225 阅读:2 留言:0更新日期:2024-05-20 19:19
本发明专利技术涉及征信处理技术领域,具体涉及一种基于决策树模型的二代征信特征衍生系统及装置,为解决现有手动特征工程繁琐耗时,过于依赖人的经验和判断的问题。所述特征衍生系统完成评分并将评分结果发布到现有技术的决策引擎中使用。所述特征衍生系统通过XGB模型和逻辑回归模型完成分值转换,获得每个样本的违约概率,通过分数转换逻辑转换为评分,进而获得评分结果将所述评分结果导出为PMML格式,发布到现有技术的决策引擎中使用,特征衍生系统完成评分流程。解放了人力,有效解决了现有手动特征工程繁琐耗时,过于依赖人的经验和判断的问题。

【技术实现步骤摘要】

本专利技术涉及征信处理,尤其涉及一种基于决策树模型的二代征信特征衍生系统及装置


技术介绍

1、征信数据是信贷风控业务中最重要的一个数据源,对征信数据的处理也就是特征衍生是一项繁琐的任务。传统模式针对征信数据的特征衍生通常遵循时间周期+维度+原始指标+聚合函数的框架来设计,比如时间周期为“最近一个月”,维度为“银行或消费金融公司”,原始指标为“贷款审批”,聚合函数为“查询次数”形成衍生特征:最近一个月~银行或消费金融公司~贷款审批~查询次数。

2、基于上述框架通常可以生成数千甚至数万个衍生特征,在原始数据集中提取和构造可解释的特征,有利于机器学习模型更好的预测目标。传统特征工程是依赖相关领域专家的专业知识,建立特征提取框架,可以称之为手动特征工程,缺点在于繁琐耗时,过于依赖人的经验和判断。


技术实现思路

1、有鉴于此,本专利技术的目的在于提出一种基于决策树模型的二代征信特征衍生系统及装置,以解决现有手动特征工程繁琐耗时,过于依赖人的经验和判断的问题。

2、基于上述目的,本专利技术提供了一种基于决策树模型的二代征信特征衍生系统,所述特征衍生系统完成评分并将评分结果发布到现有技术的决策引擎中使用,所述评分流程包括

3、s1:获取原始征信报文,得到原始指标;

4、s2:将原始指标转换为标准化格式的中间数据;

5、s3:将中间数据输入专家特征衍生系统中进行一次人工衍生处理,得到专家衍生指标,将专家衍生指标和原始指标合并保存为离线样本数据,定义为fx特征样本;

6、s4:对fx特征样本进行清洗预处理操作,获得洁净fx特征样本;

7、s5:将洁净fx特征样本拆分为训练集x_train和测试集x_test;训练集x_train分拆为用来训练xgb模型的x_train_xgb部分和用来训练逻辑回归模型的x_train_lr部分;

8、s6:通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型;

9、s7:获取训练集所有目标xgb模型的树的叶子节点索引,得到索引列;

10、将索引列tree_1、tree_2...tree_n合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf],n为树的数量,索引列合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf];

11、s8:根据特征集xlr判定原始样本是高风险样本还是低风险样本,并且依据x_train_lr部分构造新的逻辑回归模型;

12、s9:将所述测试集x_test导入所述目标xgb模型,获取测试集叶子节点索引;

13、将测试集叶子节点索引作为新的特征合并到测试集x_test,形成新的扩展测试集:

14、x_lr_test=[x_test,xleaf_test]

15、用新的扩展测试集验证新的逻辑回归模型的有效性:

16、x_lr.score(x_lr_test,y_test)

17、多次循环s5到s9,并记录分数,将分数最高的新的逻辑回归模型确认为目标逻辑回归模型,使用目标逻辑回归模型完成后续的分值转换;

18、s10:目标xgb模型输出的叶子节点索引特征进行woe转码,转码后特征为xwoe;

19、s11:xwoe特征输入到目标逻辑回归模型进行训练,获得每个样本的违约概率,好样本概率为1-p,违约概率与正常样本的比值为odds,通过分数转换逻辑转换为评分:

20、score=base-b*ln(odds);进而获得评分结果;

21、其中,base是固定值,b是个系数,ln为取自然对数;base和b都是设定值;

22、s12:将所述评分结果导出为pmml格式,发布到现有技术的决策引擎中使用,特征衍生系统完成评分流程。

23、作为本申请的进一步改进,所述将原始征信报文解析之后转换为标准化格式的中间数据,包括按照统一的格式要求和字段定义进行组装。

24、作为本申请的进一步改进,所述按照统一的格式要求和字段定义进行组装,包括数字格式化、日期标准化和枚举字典转换。

25、作为本申请的进一步改进,所述通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型,所述目标xgb模型的树个数为10,深度为5。

26、作为本申请的进一步改进,所述获取训练集所有目标xgb模型的树的叶子节点索引,包括通过xgb模型的apply()方法获取训练集所有目标xgb模型的树的叶子节点索引。

27、作为本申请的进一步改进,所述目标xgb模型输出的叶子节点索引特征进行woe转码,转码后特征为xwoe,所述woe转码计算过程为:

28、woe=ln(低风险样本占比/高风险样本占比)*100%。

29、作为本申请的进一步改进,所述目标xgb模型输出的叶子节点索引特征进行woe转码,在所述叶子节点索引特征进行woe转码之前进行特征筛选,进行有效性和相关性分析,根据预设的阈值删除不符合条件的叶子节点索引特征。

30、作为本申请的进一步改进,进行所述有效性和相关性分析是通过iv值、相关系数指标进行的。

31、一种基于决策树模型的二代征信特征衍生装置,所述特征衍生装置包括

32、数据获取单元,用于获取原始征信报文,得到原始指标;

33、数据转换单元,用于将原始指标转换为标准化格式的中间数据;

34、数据处理单元,用于将中间数据输入专家特征衍生系统中进行一次人工衍生处理,得到专家衍生指标,将专家衍生指标和原始指标合并保存为离线样本数据,定义为fx特征样本;

35、数据清洗单元,用于对fx特征样本进行清洗预处理操作,获得洁净fx特征样本;

36、数据拆分单元,用于将洁净fx特征样本拆分为训练集x_train和测试集x_test;训练集x_train分拆为用来训练xgb模型的x_train_xgb部分和用来训练逻辑回归模型的x_train_lr部分;

37、训练单元,用于通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型;

38、索引获取单元,用于获取训练集所有目标xgb模型的树的叶子节点索引,得到索引列;

39、将索引列tree_1、tree_2...tree_n合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf],n为树的数量,索引列合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf];

40、模型构造单元,根据特征集xlr判定原始样本是高风险样本还是低风险样本,并且依据x_train_lr部分构造新的逻辑回归模型;

41、扩展验证单元,用于将所述测试集x_test导入所述目标xgb模型,获取测试集叶子节本文档来自技高网...

【技术保护点】

1.一种基于决策树模型的二代征信特征衍生系统,其特征在于,所述特征衍生系统完成评分并将评分结果发布到现有技术的决策引擎中使用,所述评分流程包括

2.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述将原始征信报文解析之后转换为标准化格式的中间数据,包括按照统一的格式要求和字段定义进行组装。

3.根据权利要求2所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述按照统一的格式要求和字段定义进行组装,包括数字格式化、日期标准化和枚举字典转换。

4.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述通过X_train_xgb部分训练和测试集X_test测试获取目标XGB模型,所述目标XGB模型的树个数为10,深度为5。

5.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述获取训练集所有目标XGB模型的树的叶子节点索引,包括通过XGB模型的apply()方法获取训练集所有目标XGB模型的树的叶子节点索引。

6.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述目标XGB模型输出的叶子节点索引特征进行WOE转码,转码后特征为Xwoe,所述WOE转码计算过程为:

7.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述目标XGB模型输出的叶子节点索引特征进行WOE转码,在所述叶子节点索引特征进行WOE转码之前进行特征筛选,进行有效性和相关性分析,根据预设的阈值删除不符合条件的叶子节点索引特征。

8.根据权利要求7所述的基于决策树模型的二代征信特征衍生系统,其特征在于,进行所述有效性和相关性分析是通过IV值、相关系数指标进行的。

9.一种基于决策树模型的二代征信特征衍生装置,其特征在于,所述特征衍生装置包括

...

【技术特征摘要】

1.一种基于决策树模型的二代征信特征衍生系统,其特征在于,所述特征衍生系统完成评分并将评分结果发布到现有技术的决策引擎中使用,所述评分流程包括

2.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述将原始征信报文解析之后转换为标准化格式的中间数据,包括按照统一的格式要求和字段定义进行组装。

3.根据权利要求2所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述按照统一的格式要求和字段定义进行组装,包括数字格式化、日期标准化和枚举字典转换。

4.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型,所述目标xgb模型的树个数为10,深度为5。

5.根据权利要求1所述的基于决策树模型的二代征信特征衍生系统,其特征在于,所述获取训练集所有目...

【专利技术属性】
技术研发人员:徐立中姚重阳方良圣
申请(专利权)人:国槐上海信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1