当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于联邦学习的信用卡交易风险预测方法技术

技术编号:27513629 阅读:22 留言:0更新日期:2021-03-02 18:45
本发明专利技术涉及一种基于联邦学习的信用卡交易风险预测方法,包括以下步骤:1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集;2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;3)采用串行联邦学习环境中GBDT算法构建组合特征;4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。与现有技术相比,本发明专利技术具有隐私保护、结果准确、适用范围广等优点。广等优点。广等优点。

【技术实现步骤摘要】
一种基于联邦学习的信用卡交易风险预测方法


[0001]本专利技术涉及金融数据安全领域,尤其是涉及一种基于联邦学习的信用卡交易风险预测方法。

技术介绍

[0002]近年来,联邦学习作为一种新兴的人工智能基础技术正蓬勃发展。“联邦学习”的概念最早于2016年由谷歌研究科学家H.Brendan McMahan等提出。它是指多个客户(如移动设备、机构、组织等)在一个或多个中央服务器协作下协同进行去中心化机器学习的设置。在去中心化机器学习的过程中,联邦学习能够保证每个客户的隐私数据不出本地,从而降低了传统中心化机器学习带来的隐私泄露风险和因数据泄露带来的相应成本。另外,根据近年来的银行年报来看,信用卡的不良率及贷款坏账率都有提升,并且受疫情影响,生产工作都放缓了脚步,伴随着收入的暂停,但是仍然需要生活必须消费。而信用社会的信用卡制度,超前消费,提前预支未来收入越来越被大家所接受,疫情期间,不良贷款率以及坏账率都在增加,银行体系由于贷款增加了不少风险杠杆,一旦杠杆继续加大,将造成很严重的后果,因此,发展及时检测信用卡交易潜在风险的技术迫在眉睫。
[0003]在过去,数据动模型不动,也就是说可以从各地来购买数据,或移动数据到一个中心点,在中心点建立模型。而碍于法律法规的影响,各银行间难以跨越法律壁垒来进行联合建模,并且由于信用卡不良率与合法交易数据的比例严重失衡导致单一银行的数据库缺乏不良样本,因此希望通过联邦学习进行银行间的联合建模来改善现有的预测模型。
[0004]本专利技术主要应用于缺乏有效不良交易的标签的信用卡交易风险预测应用。在现实场景中,公开可用的信用卡交易数据集非常稀缺,从而为信用卡交易风险预测模型的提升带来了巨大的挑战,通过分析梯度提升决策树与逻辑回归两种模型的优缺点和互补性可以知道,逻辑回归线性模型处理速度快、对全局把握性好但是对特征要求比较高。梯度提升决策树适合处理非线性数据,其思想可以用来构造组合特征,充分挖掘数据信息,然而却不能并行进行不适合处理数据量大的数据集。
[0005]目前,在信用卡风险检测领域,还没有对如何在保护数据隐私的前提下而进行跨机构间联合建模进行相关研究工作,仅有少量研究针对如何利用单一银行数据集进行了一定的探索,Soemers等提出了一种结合决策树与上下文多臂赌博机来构建动态欺诈检测模型;Bian等人提出将Bagging与Boosting算法结合而形成一种有监督的欺诈检测模型;Meng提出基于GBDT和LR的个人信用评估模型,结果准确性相较于单一模型有显著提高。Yang等人提出了基于联邦学习和差分隐私的信用卡欺诈检测系统。但是这些研究工作仍存在着许多不足:
[0006]首先,这些工作所带来的提升都较为有限,因为所用的数据都来自单一机构,没有打破机构间的数据壁垒,从而无法达到机构间合作共赢的效果;
[0007]其次,有些工作为了保护数据隐私,应用了差分隐私方法,在训练过程中引入噪声,可能会加入了一些较为不稳定的模块,使得整个模型难以训练或是训练时间过长,降低
了训练准确度,不适用于实际场景;
[0008]最后,有些工作只利用现有的单一特征,而忽略了组合特征的重要性,对模型的训练结果有一定的影响。

技术实现思路

[0009]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于联邦学习的信用卡交易风险预测方法。
[0010]本专利技术的目的可以通过以下技术方案来实现:
[0011]一种基于联邦学习的信用卡交易风险预测方法,包括以下步骤:
[0012]1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集,每个银行数据集中每条实例对应的原始特征的维度相同;
[0013]2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;
[0014]3)采用串行联邦学习环境中GBDT算法构建组合特征;
[0015]4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;
[0016]5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到第三方云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。
[0017]所述的步骤1)中,每条实例的特征包括基础字段、信用字段和交易字段,所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据,所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据,所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。
[0018]所述的步骤2)具体包括以下步骤:
[0019]21)给定L个随机生成的p稳定哈希函数,每个本地客户端,即数据拥有方,根据生成的p稳定哈希函数获取其所有实例对应的哈希值;
[0020]22)以每个实例的ID及其哈希值作为输入,采用AllReduce运算构建L个全局哈希表并广播;
[0021]23)各数据拥有方根据广播的全局哈希表获得数据集中的相似实例。
[0022]所述的步骤23)中,通过Reduce操作将拥有相同的哈希值实例的ID进行合并,对于数据拥有方P
m
的给定实例另一数据拥有方P
j
中的相似实例为具有相同哈希值最高计数的实例。
[0023]所述的步骤3)中,当一个实例与多个其他实例相似时,该实例重要性较高,则采用梯度表示该实例的重要性。
[0024]所述的步骤3)中,在每个本地客户端进行GBDT模型训练时,采用加权梯度进行训练,具体包括以下步骤:
[0025]31)每个数据拥有方更新本地实例的梯度,当数据拥有方P
m
在第t次迭代中构建新树时,加权梯度提升决策树最小化目标函数为:
[0026][0027][0028][0029][0030]其中,为第t次迭代中的目标,为数据拥有方P
m
的第q个实例,I
m
为数据拥有方P
m
的实例集合,G
mq
和H
mq
分别为与实例处相似实例在该损失函数处的一阶与二阶梯度之和,且包含该实例本身的梯度,Ω(f
t
)为对模型的正则化惩罚项,γ和λ均为超参数,对应一颗决策树,为包含在客户端n的实例里与实例相似的所有实例ID的集合,为第n个客户端的第i个节点在该损失函数上的一阶梯度信息,为第n个客户端的第i个节点在该损失函数上的二阶梯度信息,T
l
为叶子节点的总数,w为叶子节点的权重;
[0031]32)对于数据拥有方P
m
的每个实例,其他各数据拥有方将发送对应相似实例的聚合梯度到数据拥有方P
m

[0032]33)数据拥有方P
m
在接收到聚合梯度后进行加权求和得到加权梯度,并根据该加权梯度训练构建一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的信用卡交易风险预测方法,其特征在于,包括以下步骤:1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集,每个银行数据集中每条实例对应的原始特征的维度相同;2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;3)采用串行联邦学习环境中GBDT算法构建组合特征;4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到第三方云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。2.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤1)中,每条实例的特征包括基础字段、信用字段和交易字段,所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据,所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据,所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。3.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤2)具体包括以下步骤:21)给定L个随机生成的p稳定哈希函数,每个本地客户端,即数据拥有方,根据生成的p稳定哈希函数获取其所有实例对应的哈希值;22)以每个实例的ID及其哈希值作为输入,采用AllReduce运算构建L个全局哈希表并广播;23)各数据拥有方根据广播的全局哈希表获得数据集中的相似实例。4.根据权利要求3所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤23)中,通过Reduce操作将拥有相同的哈希值实例的ID进行合并,对于数据拥有方P
m
的给定实例另一数据拥有方P
j
中的相似实例为具有相同哈希值最高计数的实例。5.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤3)中,当一个实例与多个其他实例相似时,该实例重要性较高,则采用梯度表示该实例的重要性。6.根据权利要求5所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤3)中,在每个本地客户端进行GBDT模型训练时,采用加权梯度进行训练,具体包括以下步骤:31)每个数据拥有方更新本地实例的梯度,当数据拥有方P
m
在第t...

【专利技术属性】
技术研发人员:李莉樊宇曦林国义
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1