一种自动化风险控制规则生成的方法技术

技术编号:38275277 阅读:20 留言:0更新日期:2023-07-27 10:27
本发明专利技术公开了一种自动化风险控制规则生成的方法,包括以下步骤:获取数据、规则生成的框架、自动化生成目标变量库、自动化生成特征变量库、多算法结合选择特征、自动化生成规则。其核心是自动化生成贷款风险的规则,而规则的生成与目标变量的定义和特征变量的内容是密切相关的,通过自动化生成目标变量库和自动化形成特征变量库,然后通过自动化形成规则和优化规则,高效且快速的得到最终的风险控制规则,实现为贷中和贷后提供风险监控信息,本发明专利技术基于自动化生成的风控规则对生产经营情况和还款能力进行综合评估,建立贷中风险预警机制,以及进行贷后风险管理及信用评估,从而实现精准监控和管理贷款风险。现精准监控和管理贷款风险。现精准监控和管理贷款风险。

【技术实现步骤摘要】
一种自动化风险控制规则生成的方法


[0001]本专利技术涉及金融产品的风控防控
,具体为一种自动化风险控制规则生成的方法。

技术介绍

[0002]在产业供应链金融领域中,主要的金融客户都是生产制造型企业,常用的贷后风险监控的方法大多是以贷后的外访为主。而目前国内有可用于征信的信贷记录的企业较少,而且多数企业的征信记录还比较单薄,不能形成具有参考价值的企业信用图景,所以供应链金融贷款监控平台常以核心企业的ERP数据和信贷管理系统的数据为基础,实现对分散的经营数据和贷款相关信息的集中整合和信息共享,对客户实施跟踪监测,通过分析工具检测各种潜在风险,对贷款客户的经营、授信情况、金融使用情况进行监控分析并向相关业务部门发出风险点的预警信息,为贷前的审批决策及贷后管理提供依据。传统银行贷款客户风险管理过程中,由于企业规模迥异以及经营和其他非经营类进行的滞后,缺乏量化比较依据,此外主要是依据人工对相关信息进行分析和讨论,占用周期长,导致银行无法精准快速进行风险管理。

技术实现思路

[0003]本专利技术的目的在于提供一种自动化风险控制规则生成的方法,实现为贷中和贷后提供风险监控信息,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:
[0005]一种自动化风险控制规则生成的方法,包括以下步骤:
[0006]S1:获取数据:包括企业的内部数据和外部数据;
[0007]S2:规则生成的框架:自动化生成规则包括目标变量的确定、特征变量库的形成,然后基于目标变量与特征变量库的关联形成宽表,选择训练数据进行分析及分箱生成规则,然后用验证期的数据进行验证规则的有效性;
[0008]S3:自动化生成目标变量库:目标变量为逾期客户,规则的目标变量基于分析的颗粒度而确定,颗粒度包括客户级别、账单级别、贷款笔数级别,针对不同的颗粒度基于期限和逾期天数采用前

N

期逾期

M

时间的模板循环生成目标变量,然后每天遍历截止当前的所有放款行为数据,包括还款期限、逾期天数的字段,按照目标变量的定义得到目标变量的值,按天增量更新;
[0009]S4:自动化生成特征变量库:特征变量是遍历截止每天不同主题的原始数据,采用窗口变量统计衍生技术和特征组合衍生技术,自动化衍生为不同主题的特征变量,通过以目标变量库为主表,自动关联特征变量库,形成用于规则生成的特征宽表,即x1,
……
,xn和目标值Y;
[0010]S5:多算法结合选择特征:采用指标分析和多种算法结合进行特征的选择;
[0011]S6:自动化生成规则:基于指标分析和多算法模型筛选的特征集,采用卡方分箱和
决策树分箱的方法进行单变量与多变量规则的设计。
[0012]更进一步地,S1中企业的内部数据包括企业的基本信息、企业的交易信息、企业设备的IOT生产信息、企业的金融信息;外部数据包括企业工商信息、企业财务信息、企业司法信息、企业借贷意向行为信息。
[0013]更进一步地,S3中目标变量的具体定义:
[0014]坏客户:前N期逾期天数>M天,记为1,
[0015]好客户:前N期逾期天数为0,记为0,
[0016]中间客户:前N期逾期天数在0和M天之间,记为

1。
[0017]更进一步地,S4中采用多种技术进行特征的构造过程如下:
[0018]窗口变量统计衍生技术:采用的是最近

N

时间单位

动作

item

统计量,这样的模板构造的特征;
[0019]特征组合衍生技术:将两个或更多的类别属性通过运算组合成一个,运算的类型包括加减乘除的四则运算、与或非的逻辑运算;
[0020]分解类别衍生技术:通过判断特征的取值,转化为哑变量的特征;
[0021]重构数值量衍生技术:整数部分与小数部分分离,构造阶段性的统计特征。
[0022]更进一步地,S4针对不同主题的特征变量更新周期不同,对于基本信息是按每天全量更新的方式,对于交易信息、金融信息、生产信息每天都会变化的特征按每天增量更新的方式。
[0023]更进一步地,S5中具体方法如下:
[0024]S501:将特征宽表的数据进行处理,根据训练窗口和验证窗口的数据选择分为训练集和验证集;
[0025]S502:通过对训练集的数据进行指标分析和机器学习算法建模训练,用于筛选出效果好和稳定性高的特征。
[0026]更进一步地,所述指标分析:将训练集的特征数据进行单变量分析,分析的指标包括IV值、KS值、GINI系数、信息熵、PSI稳定系数,综合评估每个指标的有效性和稳定性,从而进行筛选特征,具体的:
[0027]IV值:用来评估变量的预测能力,可用于快速筛选变量,定义IV值>0.02,变量才有效果:
[0028][0029]上式中Bad
i
:每段的坏客户数;Bad
T
:总的坏客户数;Good
i
:每段的好客户数;Good
T
:总的好客户数;
[0030]KS值:衡量表示变量能够将正负客户区分的程度,KS值越大,说明变量区分坏客户的能力越强,KS值范围在0

1之间,定义KS>0.2为变量有较好的区分能力:
[0031]KS=mεx(TPR

FFR)
[0032]上式中,TPR:真正类率,等于真实为正类且预测为正类的客户数/真实为正类的客户数的比例;FPR:假正类率,等于真实为负类且预测为正类的客户数/真实为负类的客户数的比例;
[0033]GINI系数:表示在样本集合中一个随机选中的样本被分错的概率;GINI指数越小表示集合中被选中的样本被参错的概率越小,即集合的纯度越高,反之,集合越不纯:
[0034][0035]上式中,pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1

pk);样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和;当为二分类时,GINI(P)=2p(1

p);
[0036]信息熵:用于特征的选择,衡量结果的不确定性,信息熵越小,结果越简单:
[0037][0038]上式中,p
i
为每一类的概率;
[0039]PSI稳定系数:PSI是用于衡量变量的稳定性,PSI数值越小,两个分布之间的差异就越小,代表越稳定;定义PSI<0.1时,变量稳定性很高;PSI在0.1

0.25之间,变量稳定性一般,PSI>0.25时,变量稳定性差,不建议选择:
[0040][0041]上式中,Act本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化风险控制规则生成的方法,其特征在于,包括以下步骤:S1:获取数据:包括企业的内部数据和外部数据;S2:规则生成的框架:自动化生成规则包括目标变量的确定、特征变量库的形成,然后基于目标变量与特征变量库的关联形成宽表,选择训练数据进行分析及分箱生成规则,然后用验证期的数据进行验证规则的有效性;S3:自动化生成目标变量库:目标变量为逾期客户,规则的目标变量基于分析的颗粒度而确定,颗粒度包括客户级别、账单级别、贷款笔数级别,针对不同的颗粒度基于期限和逾期天数采用前

N

期逾期

M

时间的模板循环生成目标变量,然后每天遍历截止当前的所有放款行为数据,包括还款期限、逾期天数的字段,按照目标变量的定义得到目标变量的值,按天增量更新;S4:自动化生成特征变量库:特征变量是遍历截止每天不同主题的原始数据,采用窗口变量统计衍生技术和特征组合衍生技术,自动化衍生为不同主题的特征变量,通过以目标变量库为主表,自动关联特征变量库,形成用于规则生成的特征宽表,即x1,
……
,xn和目标值Y;S5:多算法结合选择特征:采用指标分析和多种算法结合进行特征的选择;S6:自动化生成规则:基于指标分析和多算法模型筛选的特征集,采用卡方分箱和决策树分箱的方法进行单变量与多变量规则的设计。2.如权利要求1所述的一种自动化风险控制规则生成的方法,其特征在于:S1中企业的内部数据包括企业的基本信息、企业的交易信息、企业设备的IOT生产信息、企业的金融信息;外部数据包括企业工商信息、企业财务信息、企业司法信息、企业借贷意向行为信息。3.如权利要求1所述的一种自动化风险控制规则生成的方法,其特征在于:S3中目标变量的具体定义:坏客户:前N期逾期天数>M天,记为1,好客户:前N期逾期天数为0,记为0,中间客户:前N期逾期天数在0和M天之间,记为

1。4.如权利要求1所述的一种自动化风险控制规则生成的方法,其特征在于:S4中采用多种技术进行特征的构造过程如下:窗口变量统计衍生技术:采用的是最近

N

时间单位

动作

item

统计量,这样的模板构造的特征;特征组合衍生技术:将两个或更多的类别属性通过运算组合成一个,运算的类型包括加减乘除的四则运算、与或非的逻辑运算;分解类别衍生技术:通过判断特征的取值,转化为哑变量的特征;重构数值量衍生技术:整数部分与小数部分分离,构造阶段性的统计特征。5.如权利要求1所述的一种自动化风险控制规则生成的方法,其特征在于,S4针对不同主题的特征变量更新周期不同,对于基本信息是按每天全量更新的方式,对于交易信息、金融信息、生产信息每天都会变化的特征按每天增量更新的方式。6.如权利要求1所述的一种自动化风险控制规则生成的方法,其特征在于,S5中具体方法如下:S501:将特征宽表的数据进行处理,根据训练窗口和验证窗口的数据选择分为训练集
和验证集;S502:通过对训练集的数据进行指标分析和机器学习算法建模训练,用于筛选出效果好和稳定性高的特征。7.如权利要求6所述的一种自动化风险控制规则生成的方法,其特征在于,所述指标分析:将训练集的特征数据进行单变量分析,分析的指标包括IV值、KS值、GINI系数、信息熵、PSI稳定系数,综合评估每个指标的有效性和稳定性,从而进行筛选特征,具体的:IV值:用来评估变量的预测能力,可用于快速筛选变量,定义IV值>0.02,变量才有效果:上式中Bad
i
:每段的坏客户数;Bad
T
:总的坏客户数;Good
i
:每段的好客户数;Good
T
...

【专利技术属性】
技术研发人员:林日英于溦董菲
申请(专利权)人:广州鑫景信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1