System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于动态支持向量机的企业信用评分样本标注方法技术_技高网

一种基于动态支持向量机的企业信用评分样本标注方法技术

技术编号:40479339 阅读:14 留言:0更新日期:2024-02-26 19:14
本发明专利技术提供一种基于动态支持向量机的企业信用评分样本标注方法,属于金融样本标注领域,本发明专利技术利用使用企业信用的历史数据,采用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作;后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,以该模型对无标签样本进行标注。能够更加准确的标记出数据的标签。

【技术实现步骤摘要】

本专利技术涉及金融样本标注领域,尤其涉及一种基于动态支持向量机的企业信用评分样本标注方法


技术介绍

1、随着互联网的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业,传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融健康成长的必然趋势。当前我国互联网金融信用体系还不是很完善,征信系统和有关法律都含有一定的缺陷。

2、信用评分模型常用的方法是逻辑回归,逻辑回归的训练是需要有标签的数据;另外,在进行特征工程指标重要性分析时,也需要有标签的数据,比如相关性分析、xgboost指标重要性分析等;然而,很多情况下,不能以现有的指标为所有的训练数据标注合适的标签,这会使得逻辑回归建立信用评分模型的训练样本不足,或者无法训练。

3、逻辑回归(logistic regression)是机器学习领域最为常见的模型方法之一,常常用于作为处理各种任务的基准模型(baseline)。当然各类任务往往最后所用模型的性能远超过逻辑回归方法,但是其模型结构的复杂度和训练时间也往往超过逻辑回归方法;因其可解释性高的优点,在风控建模方面有广泛的应用。

4、开发信用评分模型的首要目标就是知道来者是好人还是坏人,他未来会不会出现逾期、失联等。所以,如何定义一个借款人的好坏十分讲究,并不是一个人有过逾期欠款他就不是好人了,毕竟发生逾期的原因总是多方面的,有的仅仅是偶尔忘了,这部分总体还是好人,而有的是中途发生财务原因暂时无力偿还,还有的严重一点就是主观上存在坏的目的,借了钱就消失赖账,甚至是身份被骗子盗用。所以,建模过程中,为了训练出一个优质的模型,需要正确地定义好坏样本。


技术实现思路

1、为了解决以上技术问题,本专利技术提供了一种基于动态支持向量机的企业信用评分样本标注方法。

2、本专利技术的技术方案是:

3、一种基于动态支持向量机的企业信用评分样本标注方法,可以利用使用企业信用的历史数据,采用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作。后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,以该模型对无标签样本进行标注,解决信用评分模型建模样本标签不足的问题,同时,很大程度上节约了人力成本以及人工标注的时间。

4、本专利技术选用含有标签的企业信用数据进行训练,数据进行缺失值、同值分析,进行特征的第一次筛选,然后基于ks分箱的信息熵方法对特征进行细致的筛选,完成特征筛选步骤。对筛选完成的数据样本进行训练集和测试集的划分,以完成后续模型训练工作。提出一种动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作。后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,为后续的企业进行标记。

5、进一步的,

6、基于历史数据从高维数据中获得用于构建企业信用评分模型的数据信息,相关数据源包括监管数据、征信数据等,通过对多源异构数据分析、融合、汇聚形成标准数据库,基于标准数据库筛选建立企业信用评分模型指标体系;通过数据清洗、无效值处理、同值统计、缺失值统计、缺失值填充等流程构建企业信用评分模型特征工程;根据部分意义明确的指标,确定部分样本的标签;基于有标签的样本,对动态支持向量机进行训练,获取初始的样本标记标签模型,对无标签的样本进行标记,并使用所有含有标签的数据进行后续信用评分模型的建设;随着有标签的数据量增加,对初始的样本标记标签模型进行动态训练,以用于无标签样本的标注。

7、具体如下

8、标准数据库建立步骤:多源数据包括部门数据、互联网数据、第三方数据共计三方数据源,三方数据源通过数据汇聚、融合比对等建立标准数据库;

9、企业信用评分模型指标体系的建立步骤:基于建立的多源数据标准库,建设用于企业信用评分的指标体系,构建指标的数据主要来源于工商、变更、行政处罚、失信、负债、税务等数据中;另外,投资、担保、分支、法人等关系数据也用于构建部分指标;

10、筛选好坏含义明确的指标,为部分样本标注标签;入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析等特征工程,并提出基于ks分箱的信息熵法进行特征选择,提出动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,得到初步的标注模型,后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态变化,为未标注的样本打标签,用于后续企业信用评分模型的训练。

11、企业信用评分模型建立步骤:上述步骤中指标进行了数据清洗、无效值处理、同值统计、缺失值统计等特征工程;以训练得到的标签标注模型对所有的样本标注标签,然后进行企业信用评分的常用步骤,包括相关性分析、共线性分析,去除指标之间相关性,共线性过高的指标;xgboost指标重要性分析,筛选出对模型其关键作用的指标;对指标进行分布检验并做转换;基于逻辑回归训练模型;评分卡转换。

12、所述标准数据库构建的步骤

13、多源异构数据的治理:多源数据来源于企业、部门、互联网等多方来源,包括结构化的数据以及半结构化数据,既包括存量数据也包括api接口提供的数据。半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理等形成结构化的入库数据,通过建立统一的数据标准规范对入库的多源数据进行规范化管理,互联网数据等可存储数据定期拉取,实时接口数据通过内存进行处理,结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘等;

14、数据融合:三方多源数据通过横纵向数据融合,多源互补数据、冗余数据、重叠数据通过不同的融合策略最终融合汇聚到统一的数据库中,数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。

15、所述指标体系的两部分组成及构建的步骤:

16、企业信用评分的指标体系基于建立的多源数据标准库,从数据中建设用于企业信用评分指标体系。

17、本专利技术在构建分类器时,提出动态的支持向量机,可以利用历史数据进行初次模型的训练,然后随着时间的推移,可以利用后续更新数据对模型进行优化,提高模型的适应性与鲁棒性。

18、本专利技术在进行模型参数训练时,提出一种基于交叉验证的网格搜索方法,网格搜索可以有效覆盖最优参数的取值范围,而使用k折交叉验证可以减少网格搜索的时间成本消耗,以期最快的速度获得最优参数,能够有效提高分类精度,对企业标注具有促进作用。

19、本专利技术设计详细特征选择步骤,采用基于ks分箱的信息熵法,一方面能够减少离群点、空值等异常噪声的影响,另一方面,可以很好的测定每一特征对数据正常或者异常的贡献度,特征本文档来自技高网...

【技术保护点】

1.一种基于动态支持向量机的企业信用评分样本标注方法,其特征在于,

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求4所述的方法,其特征在于,

6.根据权利要求5所述的方法,其特征在于,

7.根据权利要求6所述的方法,其特征在于,

8.根据权利要求7所述的方法,其特征在于,

【技术特征摘要】

1.一种基于动态支持向量机的企业信用评分样本标注方法,其特征在于,

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在...

【专利技术属性】
技术研发人员:郭长营崔乐乐李仰允
申请(专利权)人:天元大数据信用管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1