一种走逃企业的预测方法、系统及相关装置制造方法及图纸

技术编号:32586668 阅读:15 留言:0更新日期:2022-03-09 17:19
本申请提供一种走逃企业的预测方法,包括:获取待建模数据特征;对待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个抽样样本数据分别进行LightGBM建模,得到预测模型;利用预测模型根据平均信息熵增益输出每个特征的特征权重;利用预测模型对读入数据进行走逃企业预测,得到预测结果。本申请在提升模型准确度的同时极大缓解了模型过拟合的现象。大大降低了模型训练时对物理内存的占用,能够用更大的数据量和更高维度的特征进行模型的训练,精确度更高,提升了对走逃企业预测准确性的同时,减少了客诉。本申请还提供一种走逃企业的预测系统、计算机可读存储介质和电子设备,具有上述有益效果。具有上述有益效果。具有上述有益效果。

【技术实现步骤摘要】
一种走逃企业的预测方法、系统及相关装置


[0001]本申请涉及计算机
,特别涉及一种走逃企业的预测方法、系统及相关装置。

技术介绍

[0002]当前使用的算法模型为Xgboost,其因为Boosting算法的特性,模型训练更注重降低整体的偏差,而对方差的降低没有太多优化,导致模型的鲁棒性不高。实践结果证明,现有已优化的Xgboost模型在训练集上的指标能够达到精确率:0.87,召回率:0.94。但是在测试集上的指标只能达到精确率:0.55,召回率:0.54。测试集的效果远不如训练集,说明模型存在着严重的过拟合现象。2)走逃企业的预测,在原则上宁可将走逃企业判别为正常企业,也不能错把任何一个正常企业判别为走逃企业,因为这样会遭到大量的客诉,是业务方所不允许的。这就要求模型在测试集上的精确度要达到一个极高的标准,而当前0.54的精确率则远远未达标。
[0003]同时,走逃业务方不仅需要知道模型的预测概率,还需要知道具体的判断依据,但是因为Xgboost模型有一定的黑盒特性,所以预测结果的可解释性很难达到要求。

技术实现思路

[0004]本申请的目的是提供一种走逃企业的预测方法、预测系统、计算机可读存储介质和电子设备,能够提高对于走逃企业的预测精确度。
[0005]为解决上述技术问题,本申请提供一种走逃企业的预测方法,具体技术方案如下:
[0006]获取待建模数据特征;
[0007]对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;
[0008]对每个所述抽样样本数据分别进行LightGBM建模,得到预测模型;
[0009]利用预测模型根据平均信息熵增益输出每个特征的特征权重;
[0010]利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。
[0011]可选的,还包括:
[0012]根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;
[0013]根据所述特征获取规则生成特征宽表;
[0014]读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。
[0015]可选的,得到预测模型之后,还包括:
[0016]使用Graphviz绘制各所述预测模型对应决策树的结构。
[0017]可选的,还包括:
[0018]根据所述特征重要性指标对所述预测模型的模型特征进行校验,优化和/或删除
异常特征后,重新训练所述预测模型。
[0019]可选的,还包括:
[0020]接收输入字段;
[0021]利用后端sql查询所述输入字段对应的条目信息;
[0022]将所述条目信息中的其他字段信息和所述输入字段作为参数输入至所述预测模型。
[0023]可选的,利用所述预测模型对读入数据进行走逃企业预测,得到预测结果之后,还包括:
[0024]将所述预测结果存储于预设数据库。
[0025]可选的,利用所述预测模型根据平均信息熵增益输出每个特征的特征权重之后,还包括:
[0026]利用LIME对所述读入数据执行基于数据生成的回归建模,得到所有特征在所述读入数据上的重要性分数。
[0027]本申请还提供一种走逃企业的预测系统,包括:
[0028]数据获取模块,用于获取待建模数据特征;
[0029]抽样模块,用于对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;
[0030]模型生成模块,用于对每个所述抽样样本数据分别进行LightGBM建模,得到预测模型;
[0031]特征权重确定模块,用于利用预测模型根据平均信息熵增益输出每个特征的特征权重;
[0032]预测模块,用于利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。
[0033]可选的,还包括:
[0034]读入数据处理模块,用于根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;根据所述特征获取规则生成特征宽表;读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。
[0035]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
[0036]本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
[0037]本申请提供一种走逃企业的预测方法,包括:获取待建模数据特征;对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个所述抽样样本数据分别进行LightGBM建模,得到预测模型;利用预测模型根据平均信息熵增益输出每个特征的特征权重;利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。
[0038]本申请基于装袋算法和LightGBM构建预测模型,在提升模型准确度的同时极大缓解了模型过拟合的现象。其中,LightGBM模型的使用大大降低了模型训练时对物理内存的
占用,能够用更大的数据量和更高维度的特征进行模型的训练,精确度更高,提升了对走逃企业预测准确性的同时,减少了客诉。
[0039]本申请还提供一种走逃企业的预测系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
[0040]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0041]图1为本申请实施例所提供的一种走逃企业的预测方法的流程图;
[0042]图2为本申请实施例所提供的一种走逃企业的预测系统结构示意图。
具体实施方式
[0043]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]请参考图1,图1为本申请实施例所提供的一种走逃企业的预测方法的流程图,该方法包括:
[0045]S101:获取待建模数据特征;
[0046]需要注意的是,本步骤旨在获取待建模数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种走逃企业的预测方法,其特征在于,包括:获取待建模数据特征;对所述待建模数据特征进行预设次数的有放回抽样,得到抽样样本数据;对每个所述抽样样本数据分别进行LightGBM建模,得到预测模型;利用所述预测模型根据平均信息熵增益输出每个特征的特征权重;利用所述预测模型对读入数据进行走逃企业预测,得到预测结果;其中,所述预测结果包括输出特征和各所述输出特征对应的特征权重。2.根据权利要求1所述的预测方法,其特征在于,还包括:根据建模需求,并确定所述建模需求中的特征获取规则和业务要求;根据所述特征获取规则生成特征宽表;读取所述特征宽表,根据所述业务要求对所述读入数据进行特征工程处理;其中,所述特征工程处理包括缺失值填充、过采样、负采样、数值化类别特征、衍生变量中一项或任意几项的组合。3.根据权利要求1所述的预测方法,其特征在于,得到预测模型之后,还包括:使用Graphviz绘制各所述预测模型对应决策树的结构。4.根据权利要求1所述的预测方法,其特征在于,还包括:根据所述特征重要性指标对所述预测模型的模型特征进行校验,优化和/或删除异常特征后,重新训练所述预测模型。5.根据权利要求1所述的预测方法,其特征在于,还包括:接收输入字段;利用后端sql查询所述输入字段对应的条目信息;将所述条目信息中的其他字段信息和所述输入字段作为参数输入至所述预测模型。6.根据权利要求1所述的预测方法...

【专利技术属性】
技术研发人员:陈泓沈懿忱杨占强刘子星孙琦戴宁
申请(专利权)人:税友信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1