一种基于LightGBM的个人信贷风险预测方法及装置制造方法及图纸

技术编号:39400910 阅读:7 留言:0更新日期:2023-11-19 15:53
本发明专利技术公开了一种基于LightGBM的个人信贷风险预测方法及装置,涉及大数据分析技术领域。所述方法是在获取多个样本用户的历史接收短信后,依次通过短信拼接、预处理、词频计算和基于权重的特征词选取处理,可以得到各个样本用户的多个样本特征词,然后应用所述各个样本用户的所述多个样本特征词以及个人信贷风险标签对基于LightGBM的机器学习模型进行二分类训练,可得到个人信贷风险预测模型,最后将通过一系列相同处理所得到的目标用户的多个目标特征词输入所述个人信贷风险预测模型,即可输出得到所述目标用户的个人信贷风险标签或者个人信贷违约概率,如此可实现结合用户短信数据进行个人信贷风险准确预测的目的。信数据进行个人信贷风险准确预测的目的。信数据进行个人信贷风险准确预测的目的。

【技术实现步骤摘要】
一种基于LightGBM的个人信贷风险预测方法及装置


[0001]本专利技术属于大数据分析
,具体涉及一种基于LightGBM的个人信贷风险预测方法及装置。

技术介绍

[0002]随着互联网技术的飞速发展,互联网金融作为传统金融行业与互联网技术结合的新兴领域,在各国政策的不断完善下,已具有越来越丰富的业务模式。可以说,互联网与金融的深度结合已是行业发展的大势所趋。个人贷款作为互联网金融的重要业务之一,在飞速发展的同时,对政府组织和金融公司都提出了更高的管理要求。个人信贷风险是金融公司面临的主要风险之一,提升金融公司对个人信贷客户的风险预测能力,是规避坏账和避免引发系统性金融风险的重要一环。
[0003]在信贷业务起步的早期阶段,由于对借贷人的信用评估机制并不完善,信贷业务的发展一度处于停滞不前的状态。金融机构通常只能依靠信贷工作人员的工作经验对借贷客户的信用进行定性评估,无法做到较精确的定量评估;这种依靠信贷工作人员个人经验的评估方式给金融机构的贷款业务带来了巨大的风险。随着贷款业务的逐渐成熟,各大金融机构开始采用基于统计学的信用评分机制对借贷客户的信贷风险进行预测。这种信用评分机制通常是一套线性模型,将客户的年龄、工资收入、婚姻状态和资产状况等信息作为客户特征输入到模型中,在经过一系列的运算之后,给出借贷客户的信贷风险指数以供参考。这种信用评分机制可以在一定程度上降低金融机构的信贷风险;但是在真实情况下,借贷客户的各项特征之间往往互相影响,呈现出复杂的非线性关系,这种评估机制越来越不能适应金融机构信贷风险评估的需求。
[0004]在当前实际社会中,短信沟通是几乎每个人都会采用的联络方式,几乎每个信贷客户都会拥有大量的短信数据。相较于传统的且基于个人背景信息和消费信息等静态数据的客户特征,用户短信这一动态的行为属性在风险管控方面可能会起到更大的作用。同时个人的短信内容往往也能反映其隐性的行为特征和个人品质特征。目前,数据挖掘和机器学习算法技术逐渐成熟,使得个人信用研究中用户特征的提取和模型建立的研究条件均变得更加成熟,如何结合用户的大量短信数据,挖掘出其个人的基本特征,以便更好地帮助金融平台进行个人信用风险管理,是本领域技术人员亟需研究的课题。

技术实现思路

[0005]本专利技术的目的是提供一种基于LightGBM的个人信贷风险预测方法、装置、计算机设备及计算机可读存储介质,用以解决现有大数据分析技术还未能结合用户短信数据进行个人信贷风险准确预测的问题。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]第一方面,提供了一种基于LightGBM的个人信贷风险预测方法,包括:
[0008]获取多个样本用户的历史接收短信;
[0009]针对在所述多个样本用户中的各个样本用户,按照收信时间戳从先到后的顺序依次拼接对应的所有历史接收短信,得到对应的短信字符串;
[0010]对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,其中,所述非特征字符是指不会反映用户行为特征的字符;
[0011]根据所有的所述新短信字符串,采用词频

逆文档频率TF

IDF统计算法计算得到在第一单词集合中的各个单词在各个所述新短信字符串中的词频,其中,所述第一单词集合是通过对所有的所述新短信字符串进行分词处理得到;
[0012]采用如下方式为所述各个样本用户分别选取多个样本特征词:先针对各个单词类别,从所述第一单词集合中选取属于对应类别的且按样本用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个样本特征词,其中,所述样本用户词频是指单词在与样本用户对应的所述新短信字符串中的词频,w表示对应类别的单词在所述第一单词集合中的占比,M表示特征词选取总数,Round()表示四舍五入取整函数;
[0013]应用所述各个样本用户的所述多个样本特征词以及个人信贷风险标签对基于LightGBM的机器学习模型进行二分类训练,得到个人信贷风险预测模型,其中,所述个人信贷风险标签用于标记对应用户是否出现过个人信贷违约;
[0014]获取目标用户的历史接收短信;
[0015]按照收信时间戳从先到后的顺序依次拼接所述目标用户的所有历史接收短信,得到目标短信字符串;
[0016]对所述目标短信字符串做所述预处理,得到已去除所述非特征字符的新目标短信字符串;
[0017]根据所述新目标短信字符串和所有的所述新短信字符串,采用所述词频

逆文档频率TF

IDF统计算法计算得到在第二单词集合中的各个单词在所述新目标短信字符串中的词频,其中,所述第二单词集合是通过对所述新目标短信字符串和所有的所述新短信字符串进行分词处理得到;
[0018]采用如下方式为所述目标用户选取多个目标特征词:先针对所述各个单词类别,从所述第二单词集合中选取属于对应类别的且按目标用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个目标特征词,其中,所述目标用户词频是指单词在与目标用户对应的所述新目标短信字符串中的词频;
[0019]将所述目标用户的所述多个目标特征词输入所述个人信贷风险预测模型,输出得到所述目标用户的个人信贷风险标签或者个人信贷违约概率。
[0020]基于上述
技术实现思路
,提供了一种基于历史短信数据的个人信贷风险预测模型训练及应用方案,即在获取多个样本用户的历史接收短信后,依次通过短信拼接、预处理、词频计算和基于权重的特征词选取处理,可以得到各个样本用户的多个样本特征词,然后应用所述各个样本用户的所述多个样本特征词以及个人信贷风险标签对基于LightGBM的机器学习模型进行二分类训练,可得到个人信贷风险预测模型,最后将通过一系列相同处理所得到的目标用户的多个目标特征词输入所述个人信贷风险预测模型,即可输出得到所述目
标用户的个人信贷风险标签或者个人信贷违约概率,如此可以供下游风控团队在办理所述目标用户的个人信贷业务时进行风控参考,降低风险,实现结合用户短信数据进行个人信贷风险准确预测的目的,便于实际应用和推广。
[0021]在一个可能的设计中,对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,包括:
[0022]对所述各个样本用户的短信字符串分别做标点符号去除处理,得到所述各个样本用户的且已去除标点符号的第一短信字符串;
[0023]对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的新短信字符串。
[0024]在一个可能的设计中,当所述历史接收短信为英语文本时,对所述各个样本用户的第一短信字符串分别做语气助词去除处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LightGBM的个人信贷风险预测方法,其特征在于,包括:获取多个样本用户的历史接收短信;针对在所述多个样本用户中的各个样本用户,按照收信时间戳从先到后的顺序依次拼接对应的所有历史接收短信,得到对应的短信字符串;对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,其中,所述非特征字符是指不会反映用户行为特征的字符;根据所有的所述新短信字符串,采用词频

逆文档频率TF

IDF统计算法计算得到在第一单词集合中的各个单词在各个所述新短信字符串中的词频,其中,所述第一单词集合是通过对所有的所述新短信字符串进行分词处理得到;采用如下方式为所述各个样本用户分别选取多个样本特征词:先针对各个单词类别,从所述第一单词集合中选取属于对应类别的且按样本用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个样本特征词,其中,所述样本用户词频是指单词在与样本用户对应的所述新短信字符串中的词频,w表示对应类别的单词在所述第一单词集合中的占比,M表示特征词选取总数,Round()表示四舍五入取整函数;应用所述各个样本用户的所述多个样本特征词以及个人信贷风险标签对基于LightGBM的机器学习模型进行二分类训练,得到个人信贷风险预测模型,其中,所述个人信贷风险标签用于标记对应用户是否出现过个人信贷违约;获取目标用户的历史接收短信;按照收信时间戳从先到后的顺序依次拼接所述目标用户的所有历史接收短信,得到目标短信字符串;对所述目标短信字符串做所述预处理,得到已去除所述非特征字符的新目标短信字符串;根据所述新目标短信字符串和所有的所述新短信字符串,采用所述词频

逆文档频率TF

IDF统计算法计算得到在第二单词集合中的各个单词在所述新目标短信字符串中的词频,其中,所述第二单词集合是通过对所述新目标短信字符串和所有的所述新短信字符串进行分词处理得到;采用如下方式为所述目标用户选取多个目标特征词:先针对所述各个单词类别,从所述第二单词集合中选取属于对应类别的且按目标用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个目标特征词,其中,所述目标用户词频是指单词在与目标用户对应的所述新目标短信字符串中的词频;将所述目标用户的所述多个目标特征词输入所述个人信贷风险预测模型,输出得到所述目标用户的个人信贷风险标签或者个人信贷违约概率。2.根据权利要求1所述的个人信贷风险预测方法,其特征在于,对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,包括:对所述各个样本用户的短信字符串分别做标点符号去除处理,得到所述各个样本用户的且已去除标点符号的第一短信字符串;
对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的新短信字符串。3.根据权利要求2所述的个人信贷风险预测方法,其特征在于,当所述历史接收短信为英语文本时,对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的新短信字符串,包括:对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的第二短信字符串;对所述各个样本用户的第二短信字符串分别做词根还原处理,得到所述各个样本用户的且全由词根组成的新短信字符串,其中,所述词根还原处理是指针对在短信字符串中的各个单词,用对应的词根替换对应单词。4.根据权利要求1所述的个人信贷风险预测方法,其特征在于,在为所述各个样本用户分别选取多个样本特征词之前,所述方法还包括:针对在所述第一单词集合中的各对单词,计算得到对应的单词相似度;根据所述各对单词的单词相似度,采用k均值聚类算法将所述第一单词集合中的所有单词分成多个单词类别。5.根据权利要求4所述的个人信贷风险预测方法,其特征在于,针对在所述第一单词集合中的各对单词,计算得到对应的单词相似度,包括:针对在所述第一单词集合中的各对单词,计算得到对应的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频

逆文档频率TF

【专利技术属性】
技术研发人员:翟红波吴挺
申请(专利权)人:海创云出海计算技术成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1