【技术实现步骤摘要】
一种基于LightGBM的个人信贷风险预测方法及装置
[0001]本专利技术属于大数据分析
,具体涉及一种基于LightGBM的个人信贷风险预测方法及装置。
技术介绍
[0002]随着互联网技术的飞速发展,互联网金融作为传统金融行业与互联网技术结合的新兴领域,在各国政策的不断完善下,已具有越来越丰富的业务模式。可以说,互联网与金融的深度结合已是行业发展的大势所趋。个人贷款作为互联网金融的重要业务之一,在飞速发展的同时,对政府组织和金融公司都提出了更高的管理要求。个人信贷风险是金融公司面临的主要风险之一,提升金融公司对个人信贷客户的风险预测能力,是规避坏账和避免引发系统性金融风险的重要一环。
[0003]在信贷业务起步的早期阶段,由于对借贷人的信用评估机制并不完善,信贷业务的发展一度处于停滞不前的状态。金融机构通常只能依靠信贷工作人员的工作经验对借贷客户的信用进行定性评估,无法做到较精确的定量评估;这种依靠信贷工作人员个人经验的评估方式给金融机构的贷款业务带来了巨大的风险。随着贷款业务的逐渐成熟,各大金融机构开始采用基于统计学的信用评分机制对借贷客户的信贷风险进行预测。这种信用评分机制通常是一套线性模型,将客户的年龄、工资收入、婚姻状态和资产状况等信息作为客户特征输入到模型中,在经过一系列的运算之后,给出借贷客户的信贷风险指数以供参考。这种信用评分机制可以在一定程度上降低金融机构的信贷风险;但是在真实情况下,借贷客户的各项特征之间往往互相影响,呈现出复杂的非线性关系,这种评估机制越来越不能适应金融机构信贷 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于LightGBM的个人信贷风险预测方法,其特征在于,包括:获取多个样本用户的历史接收短信;针对在所述多个样本用户中的各个样本用户,按照收信时间戳从先到后的顺序依次拼接对应的所有历史接收短信,得到对应的短信字符串;对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,其中,所述非特征字符是指不会反映用户行为特征的字符;根据所有的所述新短信字符串,采用词频
‑
逆文档频率TF
‑
IDF统计算法计算得到在第一单词集合中的各个单词在各个所述新短信字符串中的词频,其中,所述第一单词集合是通过对所有的所述新短信字符串进行分词处理得到;采用如下方式为所述各个样本用户分别选取多个样本特征词:先针对各个单词类别,从所述第一单词集合中选取属于对应类别的且按样本用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个样本特征词,其中,所述样本用户词频是指单词在与样本用户对应的所述新短信字符串中的词频,w表示对应类别的单词在所述第一单词集合中的占比,M表示特征词选取总数,Round()表示四舍五入取整函数;应用所述各个样本用户的所述多个样本特征词以及个人信贷风险标签对基于LightGBM的机器学习模型进行二分类训练,得到个人信贷风险预测模型,其中,所述个人信贷风险标签用于标记对应用户是否出现过个人信贷违约;获取目标用户的历史接收短信;按照收信时间戳从先到后的顺序依次拼接所述目标用户的所有历史接收短信,得到目标短信字符串;对所述目标短信字符串做所述预处理,得到已去除所述非特征字符的新目标短信字符串;根据所述新目标短信字符串和所有的所述新短信字符串,采用所述词频
‑
逆文档频率TF
‑
IDF统计算法计算得到在第二单词集合中的各个单词在所述新目标短信字符串中的词频,其中,所述第二单词集合是通过对所述新目标短信字符串和所有的所述新短信字符串进行分词处理得到;采用如下方式为所述目标用户选取多个目标特征词:先针对所述各个单词类别,从所述第二单词集合中选取属于对应类别的且按目标用户词频从高至低顺序排序的前Round(w
×
M)个单词作为对应的选取特征词,然后汇总所述各个单词类别的选取特征词,得到所述多个目标特征词,其中,所述目标用户词频是指单词在与目标用户对应的所述新目标短信字符串中的词频;将所述目标用户的所述多个目标特征词输入所述个人信贷风险预测模型,输出得到所述目标用户的个人信贷风险标签或者个人信贷违约概率。2.根据权利要求1所述的个人信贷风险预测方法,其特征在于,对所述各个样本用户的短信字符串分别做预处理,得到所述各个样本用户的且已去除非特征字符的新短信字符串,包括:对所述各个样本用户的短信字符串分别做标点符号去除处理,得到所述各个样本用户的且已去除标点符号的第一短信字符串;
对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的新短信字符串。3.根据权利要求2所述的个人信贷风险预测方法,其特征在于,当所述历史接收短信为英语文本时,对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的新短信字符串,包括:对所述各个样本用户的第一短信字符串分别做语气助词去除处理,得到所述各个样本用户的且已去除语气助词的第二短信字符串;对所述各个样本用户的第二短信字符串分别做词根还原处理,得到所述各个样本用户的且全由词根组成的新短信字符串,其中,所述词根还原处理是指针对在短信字符串中的各个单词,用对应的词根替换对应单词。4.根据权利要求1所述的个人信贷风险预测方法,其特征在于,在为所述各个样本用户分别选取多个样本特征词之前,所述方法还包括:针对在所述第一单词集合中的各对单词,计算得到对应的单词相似度;根据所述各对单词的单词相似度,采用k均值聚类算法将所述第一单词集合中的所有单词分成多个单词类别。5.根据权利要求4所述的个人信贷风险预测方法,其特征在于,针对在所述第一单词集合中的各对单词,计算得到对应的单词相似度,包括:针对在所述第一单词集合中的各对单词,计算得到对应的第一指标值、第二指标值和第三指标值,其中,所述第一指标值用于表征基于词频
‑
逆文档频率TF
‑
技术研发人员:翟红波,吴挺,
申请(专利权)人:海创云出海计算技术成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。