System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及神经网络训练,尤其涉及一种信贷风控模型训练方法、相关装置、设备以及计算机可读存储介质。
技术介绍
1、风控即风险控制,是金融行业中常用的名词。金融市场中的风险控制主要表现在信用风险评估上,也就是借款或办卡业务中。金融企业对客户的各项申请资料、综合资质进行风险测评,对违约风险较高的客户会发放拒绝通知。同时,在客户使用金融企业提供的各项服务时,也会被企业中的工作人员或系统监督,一旦出现交易风险或违约风险,客户的账户可能会被冻结。
2、对于金融企业而言,提供的贷款一般还款周期短,客户资质要求高,放贷资金多,对风控能力有很高的水平要求。随着信贷市场的不断壮大,信贷业务增长迅猛,在有限的人员设备和不断增长的业务需求下,需要更加智能的方法对业务的风险进行把控,同时不影响业务的增长。
3、当前,对于大多数金融公司而言,主要是通过构建风控模型来获取客户的风险评分。客户的风险评分用于表征客户存在信贷违约行为的概率,风险评分越高,客户存在信贷违约行为的概率就越大。风险评分越低,客户存在信贷违约行为的概率就越低。
4、因此,如何生成科学精确的样本数据用于训练风控模型,从而使得风控模型输出客户的风险评分更加科学,是技术人员日益关注的问题。
技术实现思路
1、本申请实施例提供一种信贷风控模型训练方法、装置、设备、可读存储介质,该方法解决了训练信贷风控模型时样本不足的问题。
2、第一方面,本申请实施例提供了一种信贷风控模型的训练方法,包括:将获取的样本
3、在本申请实施例中,通过将样本数据的embedding向量进行两次随机失活处理,可以得到两条不同的失活向量,将这两条不同的失活向量作为信贷风控模型的训练样本,通过这种方式能够有效地增加信贷风控模型的训练样本。此外,通过计算同一个embedding向量对应的两个失活向量的交叉熵,根据该交叉熵对两个失活向量对应的信息值进行修正使得第一信息值和第二信息值的差异程度设定范围之内,能够保证第一信息值和第二信息值的一致性,当使用第一信息值和第二信息值调整信贷风控模型的参数和/或结构,可以使得训练出的信贷风控模型的性能和准确性更高。
4、结合第一方面,在一种可能实现的方式中,将获取的样本数据通过embedding层进行处理之后,将第一embedding向量进行第一随机失活处理和/或将所述第一embedding向量进行第二随机失活处理之前,还包括:在该样本数据中,将标签为1的样本数据对应的embedding向量确定为第一embedding向量。
5、结合第一方面,在一种可能实现的方式中,基于第一失活向量和第二失活向量计算交叉熵,具体包括:根据公式计算交叉熵,sim为第一失活向量和第二失活向量的交叉熵,x为第一失活向量,y为第二失活向量。
6、结合第一方面,在一种可能实现的方式中,基于第一失活向量和第二失活向量计算交叉熵,具体包括:根据公式计算交叉熵,sim为第一失活向量和第二失活向量的交叉熵,x为第一失活向量,μx为第一失活向量的均值向量,y为第二失活向量,μy为第二失活向量的均值向量。
7、结合第一方面,在一种可能实现的方式中,将第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:将第一失活向量通过信贷风控模型进行处理,得到第一风险概率预测值,第一风险概率预测值用于表征第一失活向量对应用户的逾期概率;根据公式h(p,q)=-{p*log(q)+(1-p)*log(1-q)}计算第一信息值,h(p,q)为第一信息值,q为第一风险预测概率值,p为第一失活向量对应的样本数据的标签。
8、结合第一方面,在一种可能实现的方式中,将第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:将第一失活向量通过信贷风控模型进行处理,得到第一风险概率预测值,第一风险概率预测值用于表征第一失活向量对应用户的逾期概率;根据公式计算第一信息值,h(p,q)为第一信息值,q为第一风险预测概率值,p为第一失活向量对应的样本数据的标签。
9、结合第一方面,在一种可能实现的方式中,将第二失活向量通过信贷风控模型处理,得到第二信息值,具体包括:将第二失活向量通过信贷风控模型进行处理,得到第二风险概率预测值,第二风险概率预测值用于表征第二失活向量对应用户的逾期概率;根据公式h(p,q′)=-{p*log(q′)+(1-p)*log(1-q′)}计算第二信息值,h(p,q′)为第二信息值,q′为第二风险预测概率值,p为第二失活向量对应的样本数据的标签。
10、结合第一方面,在一种可能实现的方式中,将第二失活向量通过信贷风控模型处理,得到第二信息值,具体包括:将第二失活向量通过信贷风控模型进行处理,得到第二风险概率预测值,第二风险概率预测值用于表征第二失活向量对应用户的逾期概率;根据公式计算第二信息值,h(p,q′)为所述第二信息值,q′为第二风险预测概率值,p为第二失活向量对应的样本数据的标签。
11、结合第一方面,在一种可能实现的方式中,基于第一信息值和交叉熵得到第一调整值,具体包括:根据公式l=h(p,q)+w*sim计算第一调整值,l为第一调整值,w为超参数权重,q为第一风险预测概率值,p为第一失活向量对应的样本数据的标签;其中,w可以通过网格寻优的方法确定或根据公式确定,x为第一失活向量,y为第二失活向量。
12、结合第一方面,在一种可能实现的方式中,基于第二信息值和交叉熵得到第二调整值,具体包括:根据公式l=h(p,q′)+w*sim计算第二调整值,l为第二调整值,w为超参数权重,q′为第二风险预测概率值,p为第二失活向量对应的样本数据的标签;其中,w可以通过网格寻优的方法确定或根据公式确定,x为第一失活向量,y为第二失活向量。
13、第二方面,本申请实施例提供了一种信贷风控模型训练装置,该装置包括embedding向量生成模块、随机失活处理模块、交叉熵计算模块、信息值计算模块、调整值计算模块、训练模块;其中:
14、embedding向量生成模块本文档来自技高网...
【技术保护点】
1.一种信贷风控模型的训练方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述将获取的样本数据通过Embedding层进行处理之后,所述将所述第一Embedding向量进行第一随机失活处理和/或所述将所述第一Embedding向量进行第二随机失活处理之前,还包括:
3.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一失活向量和所述第二失活向量计算交叉熵,具体包括:
4.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一失活向量和所述第二失活向量计算交叉熵,具体包括:
5.如权利要求1-2任一项所述的方法,其特征在于,所述将所述第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:
6.如权利要求1-2任一项所述的方法,其特征在于,所述将所述第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:
7.如权利要求1-2任一项所述的方法,其特征在于,所述将所述第二失活向量通过信贷风控模型处理,得到第二信息值,具体包括:
8.如权利要求1-2任一项所
9.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一信息值和所述交叉熵得到第一调整值,具体包括:
10.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第二信息值和所述交叉熵得到第二调整值,具体包括:
11.一种信贷风控模型训练装置,其特征在于,包括执行如权利要求1-10任意一项所述的信贷风控模型的方法的单元。
12.一种信贷风控模型训练设备,其特征在于,包括:存储器和处理器,其中:
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-10任意一项所述的方法。
...【技术特征摘要】
1.一种信贷风控模型的训练方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述将获取的样本数据通过embedding层进行处理之后,所述将所述第一embedding向量进行第一随机失活处理和/或所述将所述第一embedding向量进行第二随机失活处理之前,还包括:
3.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一失活向量和所述第二失活向量计算交叉熵,具体包括:
4.如权利要求1-2任一项所述的方法,其特征在于,所述基于所述第一失活向量和所述第二失活向量计算交叉熵,具体包括:
5.如权利要求1-2任一项所述的方法,其特征在于,所述将所述第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:
6.如权利要求1-2任一项所述的方法,其特征在于,所述将所述第一失活向量通过信贷风控模型处理,得到第一信息值,具体包括:
7.如权利要求1-2任一...
【专利技术属性】
技术研发人员:卫作臣,严澄,杨青,
申请(专利权)人:度小满科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。