当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于联邦模式的信贷风险控制系统及方法技术方案

技术编号:25045659 阅读:59 留言:0更新日期:2020-07-29 05:35
本发明专利技术涉及大数据技术,旨在提供一种基于联邦模式的信贷风险控制系统及方法。该系统包括用于接入并转化数据的异构数据接入层、用于对原始数据进行预处理的数据预处理层、用于使不同数据提供者的训练样本保持对齐的样本对齐层,以及利用参与方本地数据训练本地模型并在梯度聚合后形成全局模型的联邦学习层。本发明专利技术提出了统一数据接入格式、数据预处理以及基于联邦学习的风险预测模型,解决了数据异构和隐私泄露为风险控制带来的挑战问题。不需要中心服务器参与到模型训练和学习过程中,能够保证用户隐私不被窃听。能联合众多不同的参与方进行风险控制建模,规范化建模流程,最终提升风险控制能力,为企业减少成本。

【技术实现步骤摘要】
一种基于联邦模式的信贷风险控制系统及方法
该专利技术涉及大数据技术,具体涉及一种基于联邦模式的信贷风险控制系统及方法,是大数据技术在金融领域的信用贷款分支中的应用,特别适用于企业进行贷前风险控制流程。
技术介绍
在泛金融领域中,涉及信贷业务的风险控制是几乎所有金融企业最为关心的核心环节之一。但传统的信贷风险控制方法需要大量人工(审核专员)的参与,同时具有较高的隐私泄露风险、人为操纵风险以及用户诈骗风险。例如,传统风控方法中对用户数据的采集方式主要通过申请人自己提供,然后审批机构通过人工方式去核实这些信息的准确性,最终根据自己内部建立的一套评价方法对该申请人进行信用评价,进而确定是否授信以及授信额度,较为典型的有专家评价法和评分评价法。在西方发达国家银行早期开展信用贷款业务时,对风险的评价与大多来源于内部审核专家丰富的经验总结,属于定性分析方法。例如5C分析法,此类方法通过各个维度的评价可以简单判断出贷款用户的潜在风险,为后续复杂模型的发展奠定了重要的基础。但是不可否认的是此类定性评价方法得到的最终结果仅仅取决于风控专家的主观评价,这就导致了风控专家在评价过程中的心态、以及所处的环境等因素都会在一定程度上影响最终风控预测的结果,因而准确性不高。另一方面,随着时代发展,借款群体越来越庞大,而培养一名风控专家却需要较长的周期,二者之间便产生矛盾。随着计算机技术的崛起以及数学模型的应用引起了众多商业银行的注意。人们开始探索如何有效将定性评价和定量分析法结合起来,评分评价法应运而生。引入基于数理统计的方法后贷款审批的效率大大提升,评分过程通过系统自动完成,风控专员只需要关注灰色区域的分值,能够大大减小人工处理业务量,但该评价方法依赖于表内数据,评价缺乏完整性。随着大数据时代到来,基于历史数据的评价方法难以对缺乏历史数据的借款人进行有效评价,且模型本身较为简单容易被恶意用户攻击。近年来,各企业纷纷寻求新方法构建风险控制模型。大数据风控正式随着大数据处理技术发展而出现的基于机器学习的新型评估方法。但通过对金融信贷领域风险控制研究成果的分析,我们发现大多数风险控制方法重点关注于传统风险控制评分卡模型。该技术的本质经由专家经验总结而来,随后得益于计算机技术的发展和数学模型应用,形成了以评分卡模型为核心的评分评价法。此类技术综合考虑了专家经验和数学模型,兼顾主观与客观分析,其有效性在长期的实践过程中也得以验证,直到现在,该类技术仍是众多商业银行进行风险控制采纳的主流技术。但该技术存在着信息不对称、信用数据获取维度少、较高的人工采集成本缺陷,已经越来越不适用如今的大数据时代。大数据风险控制技术则一般被用于互联网金融企业内部,该技术在风险评估时不但会利用银行内部数据,还会从互联网上获取用户相关行为数据包括但不限于运营商数据、电商数据、公共事业单位、社交数据、多方借贷数据;另外其使用的一般是较为复杂的机器学习模型,如梯度提升决策树或是以神经网络为代表的深度学习算法。但此大数据风险控制技术存在一个基本前提同时也是其致命缺陷,即假设各数据方的数据可以合法的融合。换句话说,要利用大数据进行风控首先得先把分散在各处的数据整合至一处,然后再合并后的宽表运行风险控制模型,进行后续风险控制管理。然而,如今随着国内外数据监管以及公众隐私保护的逐步加强,不同企业间数据的交换在未来将不再被允许,此时,当前的风险控制技术都将失效。本专利技术着眼于隐私保护下的风险控制技术,提出了基于联邦模式的大数据风险控制技术,为未来企业风险控制技术的发展就被重大意义。此外,适用于信贷风险控制建模的算法非常多,基于传统的评分卡模型可以构建简单有效的模型,利用复杂的机器学习手段,例如,LR,GBDT+LR,XGBoost都可以实现用户风险控制,这些方法被广泛用于互联网金融领域的风控。但是这些手段都没有考虑到在进行多方联合建模时的用户数据隐私保护问题。
技术实现思路
本专利技术要解决的技术问题是,克服现有技术中的不足,提供一种基于联邦模式的信贷风险控制系统及方法。为解决技术问题,本专利技术的解决方案是:提供一种基于联邦模式的信贷风险控制系统,包括异构数据接入层、数据预处理层、样本对齐层和联邦学习层;其中,异构数据接入层,用于接入多个数据提供者的存储形式杂乱的数据,将其转化为统一规整的结构化数据并对外提供一致的接口;数据预处理层,用于针对经过结构化转化的原始数据进行预处理操作;样本对齐层,用于通过加密样本对齐使不同数据提供者的训练样本保持对齐;联邦学习层,用于联合作为参与方的各个数据提供者与中心服务器进行通信:利用参与方的本地数据训练出本地模型,通过网络上传至中心服务器;由中心服务器对全部本地模型进行梯度聚合,然后分发给各参与方用于更新并最终形成一个全局模型。本专利技术中,所述预处理操作包括:对原始数据进行分箱、独热编码、数值归一化、缺失值填充、映射编码、哈希编码、缩放或离散化处理,将原始的数值、字符串以及比率数值转化为适合模型输入的特征。本专利技术中,所述参与方的本地服务器上各设置通信模块,用于负责各参与方之间样本对齐、梯度更新和聚合时的;通信模块包括发送模块和接收模块两个子功能模块,分别负责报文的发送与接收。本专利技术进一步提供了一种基于联邦模式的信贷风险控制方法,包括以下步骤:(1)以若干个数据提供者作为参与方,将各参与方形式杂乱的数据转化为统一规整的结构化数据,并对外提供一致的接口;(2)对经过结构化转化的原始数据进行预处理操作,使数据特征适合模型输入;(3)通过加密样本对齐的操作,在各参与方不暴露数据的前提下确保各训练样本对齐;(4)利用参与方的本地数据训练出本地模型后,联合各参与方与中心服务器之间的通信,通过网络上传至中心服务器;由中心服务器对全部本地模型进行梯度聚合,然后分发给各参与方,最终形成一个全局模型;该过程中,各参与方和中心服务器利用全局模型进行的加密数据交互式训练,在不泄漏任何用户数据隐私的情况下完成模型训练;(5)将待预测样本数据发送至中心服务器,中心服务器复制请求并分别传输至各参与方;各参与方将计算得到的本地结果回传至中心服务器,中心服务器解密后得到用于评价用户信贷风险的信用分值。本专利技术中,所述步骤(1)中,将参与方本地原始数据的原始格式先转换JSON中间表示,再通过Spark计算框架统一进行分布式解析生成Hive表结构,对外提供一致的Hive接口;该过程中只提供基本的字段类型的转换操作,为了统一进行数据描述以及数据变换,定义标准操作符具有如下格式:<源数据格式,源字段类型,目标数据格式,目标字段类型>。本专利技术中,所述步骤(2)中,通过定义标准的操作符实现数据分箱、编码、缩放、或离散化操作;根据不同的预处理方式,定义不同的数据预处理算子以实现数据形式的转换;算子的标准格式定义如下所示:算子名称[配置项][输入项]=>[输出项]。本专利技术中,所述步骤(3)中包括:各参与方先本文档来自技高网
...

【技术保护点】
1.一种基于联邦模式的信贷风险控制系统,其特征在于,包括异构数据接入层、数据预处理层、样本对齐层和联邦学习层;其中,/n异构数据接入层,用于接入多个数据提供者的存储形式杂乱的数据,将其转化为统一规整的结构化数据并对外提供一致的接口;/n数据预处理层,用于针对经过结构化转化的原始数据进行预处理操作;/n样本对齐层,用于通过加密样本对齐使不同数据提供者的训练样本保持对齐;/n联邦学习层,用于联合作为参与方的各个数据提供者与中心服务器进行通信:利用参与方的本地数据训练出本地模型,通过网络上传至中心服务器;由中心服务器对全部本地模型进行梯度聚合,然后分发给各参与方用于更新并最终形成一个全局模型。/n

【技术特征摘要】
1.一种基于联邦模式的信贷风险控制系统,其特征在于,包括异构数据接入层、数据预处理层、样本对齐层和联邦学习层;其中,
异构数据接入层,用于接入多个数据提供者的存储形式杂乱的数据,将其转化为统一规整的结构化数据并对外提供一致的接口;
数据预处理层,用于针对经过结构化转化的原始数据进行预处理操作;
样本对齐层,用于通过加密样本对齐使不同数据提供者的训练样本保持对齐;
联邦学习层,用于联合作为参与方的各个数据提供者与中心服务器进行通信:利用参与方的本地数据训练出本地模型,通过网络上传至中心服务器;由中心服务器对全部本地模型进行梯度聚合,然后分发给各参与方用于更新并最终形成一个全局模型。


2.根据权利要求1所述的信贷风险控制系统,其特征在于,所述预处理操作包括:对原始数据进行分箱、独热编码、数值归一化、缺失值填充、映射编码、哈希编码、缩放或离散化处理,将原始的数值、字符串以及比率数值转化为适合模型输入的特征。


3.根据权利要求1所述的信贷风险控制系统,其特征在于,所述参与方的本地服务器上各设置通信模块,用于负责各参与方之间样本对齐、梯度更新和聚合时的;通信模块包括发送模块和接收模块两个子功能模块,分别负责报文的发送与接收。


4.一种基于联邦模式的信贷风险控制方法,其特征在于,包括以下步骤:
(1)以若干个数据提供者作为参与方,将各参与方形式杂乱的数据转化为统一规整的结构化数据,并对外提供一致的接口;
(2)对经过结构化转化的原始数据进行预处理操作,使数据特征适合模型输入;
(3)通过加密样本对齐的操作,在各参与方不暴露数据的前提下确保各训练样本对齐;
(4)利用参与方的本地数据训练出本地模型后,联合各参与方与中心服务器之间的通信,通过网络上传至中心服务器;由中心服务器对全部本地模型进行梯度聚合,然后分发给各参与方,最终形成一个全局模型;该过程中,各参与方和中心服务器利用全局模型进行的加密数据交互式训练,在不泄漏任何用户数据隐私的情况下完成模型训练;
(5)将待预测样本数据发送至中心服务器,中心服务器复制请求并分别传输至各...

【专利技术属性】
技术研发人员:郑小林李健萌
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1