一种基于FWA_DBN的客户信用评估方法及系统技术方案

技术编号:27745639 阅读:16 留言:0更新日期:2021-03-19 13:40
本发明专利技术涉及互联网金融行业的风控技术领域,尤其为一种基于FWA_DBN的客户信用评估方法及系统,相比于采用其他的浅层神经网络,DBN是一种深度高效学习算法,能够提取数据的深层次特征,实现高维度非线性数据特征抽取与分类,网络的泛化能力和预测精度均有所提升,相比遗传算法、粒子群算法、蚁群算法等优化算法,烟花算法逐步驱动种群优化,平衡全局探索能力与局部搜索,求解复杂优化问题中表现出了非常优良的性能和很高的效率,基于FWA算法优化的DBN模型能够处理海量数据且具有收敛速度快、全局收敛、预测稳定的优势,适用互联网金融平台客户信用的实时评估。

【技术实现步骤摘要】
一种基于FWA_DBN的客户信用评估方法及系统
本专利技术涉及互联网金融行业的风控
,具体为一种基于FWA_DBN的客户信用评估方法及系统。
技术介绍
随着互联网金融的飞速发展,对于客户的信用评估已经不再局限于征信报告,而更多结合大数据的风控模型,传统评估方法主要包含基于逻辑回归、支持向量机、随机森林和随机森林等机器学习方法,这类方法的理论较为成熟,验证的方法较为完善,计算过程简便,但是适用对象往往比较单一,预测精度不太理想。近年来人工神经网络已经被证明是表现不错的研究模型。目前在信用评估应用中大多采用的是BP神经网络、RBF神经网络和Elman回归神经网络,但均普遍存在收敛速度慢、易陷入局部最小值等问题,而把更多的研究重点转向深度学习,相较于传统人工智能方法,深度学习有更强的特征提取能力,可以挖掘数据中的深层复杂关联关系,从而提高算法精度。深信度网络(DeepBeliefNetwork,DBN)由多个受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)堆叠而成的一种深度学习网络,通过逐层RBM训练网络,并借鉴BP神经网络的训练方法来对DBN模型后向微调优化,实现高维度非线性数据特征抽取与分类,非常使用于适用于互金平台的欺诈检测。DBN模型的每一层RBM虽然依靠逐层确定参数来训练网络,但是一般情况下,初始参数是随机确定的,在训练过程中容易陷入局部最优,从而影响模型的收敛速度和预测精度,为解决这一问题,许多学者采用遗传算法(GA)、粒子群算法(PSO)、蝙蝠算法(BA)等群体启发式算法来优化DBN初始参数,虽然一定程度上能够解决DBN存在的问题,但在实际中往往需要设置较大的种群规模和较高的迭代次数来保证优化效果,导致算法整体的寻优速度较慢。如何采用更适合的智能算法来优化DBN的初始参数,并运用在客户信用评估上是本领域专业人员亟待解决的技术问题,因此,针对上述问题提出一种基于FWA_DBN的客户信用评估方法及系统。
技术实现思路
本专利技术的目的在于提供一种基于FWA_DBN的客户信用评估方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于FWA_DBN的客户信用评估方法及系统,包括步骤:S1.对已有贷款表现的客户抽样作为建模样本,并采集客户的信用特征数据;S2.对所获取建模数据进行数据预处理,采用min-max方法对预处理后的数据归一化处理,按照预设比例划分训练集和测试集;S3.根据训练数据特征初步确定DBN的结构,初始化DBN的相关参数,包括:输入节点、输出节点、最大层数、每层的节点数和最大迭代次数;S4.利用训练集对DBN进行训练,并使用FWA算法对网络模型参数进行优化,得到FWA-DBN预测模型;S5.将验证集导入到FWA-DBN进行测试,如果测试精度不满足预设阈值要求,则重复步骤S3以及步骤S4再次训练FWA-DBN预测模型;S6.将FWA-DBN的客户信用评估模型部署至贷款申请平台输出实时申请信用评分,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。优选的,在S1中,对已有贷款表现的客户抽样作为建模样本,并采集客户的信用特征数据,信用特征数据包括个人基本信息、操作行为埋点数据以及第三方数据。优选的,在S2中,对于缺失的数据,通过采用插值法,插入中位数补全,令数据样本保持一致;原变量因量纲不同和数值差异太大回对DBN的训练带来的影响,需要对原始数据进行归一化处理,本专利使用的归一化函数公式如下:其中,ymax默认为1,ymin默认为-1,x为当前要处理的原始数据项,xmax为所有要处理的原始数据项中的最大值,xmin为所有要处理的原始数据项中的最小值。对归一化后的数据集根据申请时间按照比例7:3切分为训练集和测试集。优选的,S3中,在根据所述根据训练集构建DBN模型,初始化神经网络参数。深度置信网络是一个概率生成模型,由多个受限波尔兹曼机(RestrictedBoltzmannMachine,RBM)依次叠加而成,深度置信网络的最底层接收输入数据向量,并通过RBM转换输入数据到隐藏层,即高一层RBM的输入来自低一层RBM的输出。步骤3-1:建立能量函数RBM是一种可视层和隐藏层组成的双向递归神经网络,可视层是由一层代表输入的显层单元V用于接收输入,隐藏层是由一层代表隐藏变量的隐藏单元h用于提取特征。RBM的可视层单元为v={v1,v2,v3,…,vI}∈{0,1},隐藏层单元为h={h1,h2,h3,…,hI}∈{0,1},权重矩阵为w,可视层单元的阈值为a和隐藏层单元的阈值为b,则所有可视单元和隐藏层单元联合状态(v,h)的能量函数:其中,wij为第i个可视层和第j个隐藏单元的连接权重,vi、hj分别为可视层单元i和隐藏层单元j的隐藏层向量,ci、bj分别为可视层单元i和隐藏层单元j的阈值,I为可视层单元的数量,J为隐藏层单元的数量。步骤3-2:联合概率分布根据上式得到的能量函数E(v,h)得到隐藏层和可视层之间的联合概率分布为:其中,Z是一个模拟物理系统的标准化常数,由所有可视层和隐藏层单元之间的能量值相加得到。步骤3-3:独立分布通过联合概率分布,得到可视层向量v的独立分布为:则在给定一个随机输入可视层向量v的条件下,隐藏层向量h的概率:在给定一个随机输入隐藏层向量h的条件下,可视层向量v的概率:由于RBM的结构单元是一个二值状态,记一逻辑函数sigmoid激活函数为步骤3-4:激活概率由RBM的结构和状态概率可知,当给定各可视层单元的状态时,隐藏层各个单元的状态是相互独立的;同理当给定各隐藏层单元的状态时,可视层各个单元的状态也是相互独立的;可视层v和隐藏层h的激活概率分别为:步骤3-5:梯度下降法调优权值和阈值采用梯度下降法求解出实际值与期望值之间误差值:其中,E(t)为迭代t次的误差,z(t),y(t)分别是迭代t次的期望输出值和实际输出值。再根据误差求出对权值的梯度,沿着梯度下降的方向进行调优:其中,μ为学习率,E(t)为迭代t次的误差,Wij(t+1)、bj(t+1)分别为调优后权值和阈值。当所有RBM网络结构完成训练时,多个RBM网络结构被堆叠为深度信念网络。所述S3中,建立DBN分类网络模型,分别使用无标签的预训练数据样本进行网络预训练,以及有标签的样本进行参数微调,具体步骤为:(1)输入归一化的预训练样本数据,设置网络结构参数,随机初始化网络层间权值,每层阈值值初始置零;(2)使用预训练样本数据逐层训练RBM层,每一层RBM层的输出作为下一层的输入,直到训练完毕,得到各层网络权值和阈值;...

【技术保护点】
1.一种基于FWA_DBN的客户信用评估方法及系统,其特征在于:包括步骤:/nS1.对已有贷款表现的客户抽样作为建模样本,并采集客户的信用特征数据;/nS2.对所获取建模数据进行数据预处理,采用min-max方法对预处理后的数据归一化处理,按照预设比例划分训练集和测试集;/nS3.根据训练数据特征初步确定DBN的结构,初始化DBN的相关参数,包括:输入节点、输出节点、最大层数、每层的节点数和最大迭代次数;/nS4.利用训练集对DBN进行训练,并使用FWA算法对网络模型参数进行优化,得到FWA-DBN预测模型;/nS5.将验证集导入到FWA-DBN进行测试,如果测试精度不满足预设阈值要求,则重复步骤S3以及步骤S4再次训练FWA-DBN预测模型;/nS6.将FWA-DBN的客户信用评估模型部署至贷款申请平台输出实时申请信用评分,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。/n

【技术特征摘要】
1.一种基于FWA_DBN的客户信用评估方法及系统,其特征在于:包括步骤:
S1.对已有贷款表现的客户抽样作为建模样本,并采集客户的信用特征数据;
S2.对所获取建模数据进行数据预处理,采用min-max方法对预处理后的数据归一化处理,按照预设比例划分训练集和测试集;
S3.根据训练数据特征初步确定DBN的结构,初始化DBN的相关参数,包括:输入节点、输出节点、最大层数、每层的节点数和最大迭代次数;
S4.利用训练集对DBN进行训练,并使用FWA算法对网络模型参数进行优化,得到FWA-DBN预测模型;
S5.将验证集导入到FWA-DBN进行测试,如果测试精度不满足预设阈值要求,则重复步骤S3以及步骤S4再次训练FWA-DBN预测模型;
S6.将FWA-DBN的客户信用评估模型部署至贷款申请平台输出实时申请信用评分,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。


2.根据权利要求1所述的一种基于FWA_DBN的客户信用评估方法及系统,其特征在于:在S1中,对已有贷款表现的客户抽样作为建模样本,并采集客户的信用特征数据,信用特征数据包括个人基本信息、操作行为埋点数据以及第三方数据。


3.根据权利要求1所述的一种基于FWA_DBN的客户信用评估方法及系统,其特征在于:在S2中,对于缺失的数据,通过采用插值法,插入中位数补全,令数据样本保持一致;原变量因量纲不同和数值差异太大回对DBN的训练带来的影响,需要对原始数据进行归一化处理,本专利使用的归一化函数公式如下:



其中,ymax默认为1,ymin默认为-1,x为当前要处理的原始数据项,xmax为所有要处理的原始数据项中的最大值,xmin为所有要处理的原始数据项中的最小值。
对归一化后的数据集根据申请时间按照比例7:3切分为训练集和测试集。


4.如权利要求1所述的一种基于FWA_DBN的客户信用评估方法及系统,S3中,在根据所述根据训练集构建DBN模型,初始化神经网络参数。
深度置信网络是一个概率生成模型,由多个受限波尔兹曼机(RestrictedBoltzmannMachine,RBM)依次叠加而成,深度置信网络的最底层接收输入数据向量,并通过RBM转换输入数据到隐藏层,即高一层RBM的输入来自低一层RBM的输出。
步骤3-1:建立能量函数
RBM是一种可视层和隐藏层组成的双向递归神经网络,可视层是由一层代表输入的显层单元V用于接收输入,隐藏层是由一层代表隐藏变量的隐藏单元h用于提取特征。RBM的可视层单元为v={v1,v2,v3,…,vI}∈{0,1},隐藏层单元为h={h1,h2,h3,…,hI}∈{0,1},权重矩阵为w,可视层单元的阈值为a和隐藏层单元的阈值为b,则所有可视单元和隐藏层单元联合状态(v,h)的能量函数为:



其中,wij为第i个可视层和第j个隐藏单元的连接权重,vi、hj分别为可视层单元i和隐藏层单元j的隐藏层向量,ci、bj分别为可视层单元i和隐藏层单元j的阈值,I为可视层单元的数量,J为隐藏层单元的数量。
步骤3-2:联合概率分布
根据上式得到的能量函数E(v,h)得到可视层和隐藏层之间的联合概率分布为:






其中,Z是一个模拟物理系统的标准化常数,由所有可视层单元和隐藏层单元之间的能量值相加得到。
步骤3-3:独立分布
通过联合概率分布,得到可视层向量v的独立分布为:



则在给定一个随机输入可视层向量v的条件下,隐藏层向量h的概率:



在给定一个随机输入隐藏层向量h的条件下,可视层向量v的概率:



由于RBM的结构单元是一个二值状态,记一逻辑函数sigmoid激活函数为
步骤3-4:激活概率
由RBM的结构和状态概率可知,当给定各可视层单元的状态时,隐藏层各个单元的状态是相互独立的;同理当给定各隐藏层单元的状态时,可视层各个单元的状态也是相互独立的;可视层v和隐藏层h的激活概率分别为:






步骤3-5:梯度下降法调优权值和阈值
采用梯度下降法求解出实际值与期望值之间误差值:



其中,E(t)为迭代t次的误差,z(t),y(t)分别是迭代t次的期望输出值和实际输出值。
再根据误差求出对权值的梯度,沿着梯度下降的方向进行调优:






其中,μ为学习率,E(t)为迭代t次的误差,Wij(t+1)、bj(t+1)分别为调优后权值和阈值。
当所有RBM网络结构完成训练时,多个RBM网络结构被堆叠为深度信念网络。
所述S3中,建立DBN分类网络模型,分别使用无标签的预训练数据样本进行网络预训练,以及有标签的样本进行参数微调,具体步骤为:
(1)输入归一化的预训练样本数据,设置网络结构参数,随机初始化网络层间权值,每层阈值值初始置零;
(2)使用预训练样本数据逐层训练RBM层,每一层RBM层的输出作为下一层的输入,直到训练完毕,得到各层网络权值和阈值;
(3)使用(2)训练所得到的网络参数作为初始值,并使用带标签的数据样本,将DBN展开成BP网络结构,网络的最高层还需加一层分类层,作为对网络特征输出的最终分类判断层,将得到的结果与所输入的带标签数据的标签进行对比,得到的误差数据用来进行误差的反向传播,微调整个网络的参数。


5.如权利要求1所述的一种基于FWA_DBN的客户信用评估方法及系统,在S4中,RBM模型的可视层和隐藏层的网络阈值分别为b和c,两层的连接权重为W,DBN参数训练为了实现参数θ={W,b,c}的最优化求解,可以将该问题转化为求RBM在训练集上的对数似然函数最大化问题。本专利使用FWA算法对网络模型参数进行优化。
烟花算法(FireworksAlgorithm,FWA)一种用烟花爆炸过程模拟种群优化的高效的群体智能优化算法。每一个烟花个体代表一个可行解,通过特定的爆炸策略生成子代火...

【专利技术属性】
技术研发人员:江远强
申请(专利权)人:百维金科上海信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1