对风险指标进行标准化和风险评级预测的方法及计算设备技术

技术编号:38137920 阅读:11 留言:0更新日期:2023-07-08 09:50
本申请提供一种生成风险样本及训练风险评级预测模型的方法及计算设备。一种基于电商数据生成风险样本的方法包括:获取电商数据样本;确定用于对所述电商数据样本进行统计计算的多个时间片;对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;根据所述属性维度组合对所述风险指标进行数据标准化。该方案通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度。收敛速度和精度。收敛速度和精度。

【技术实现步骤摘要】
对风险指标进行标准化和风险评级预测的方法及计算设备


[0001]本申请涉及机器学习及商业大数据
,具体而言,涉及一种基于电商大数据对风险指标进行标准化及进行风险评级预测的方法及计算设备。

技术介绍

[0002]随着网络计算技术的发展,电子商务活动中产生了大量的商业大数据。例如,与传统行业相比,电商在其生态价值链上会产生海量可获取的原始电商数据。这些数据的获取、加工、或者有效利用,可对企业经营活动提供帮助,或者对企业经营决策提供支持。
[0003]虽然这些电商大数据可资利用,例如用于计算一些企业评级的风险指标,但这些风险指标存在随不同统计维度产生偏差等问题。
[0004]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本申请旨在提供一种基于电商大数据对风险指标进行标准化及进行风险评级预测的方法及计算设备,通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度。
[0006]本申请的其该用户特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请的一方面,提供一种基于电商大数据对风险指标进行标准化的方法,包括:获取电商数据样本;确定用于对所述电商数据样本进行统计计算的多个时间片;对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;根据所述属性维度组合对所述风险指标进行数据标准化。
[0008]根据本申请的另一方面,提供一种基于大数据进行风险评级预测的方法,包括:获取目标客户的电商数据样本;根据前述方法,基于所述电商数据样本,获得标准化的多个风险指标,所述多个风险指标划分为至少一个风险维度;将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;获取随机森林模型的输出结果,得到总体风险预测和风险画像。
[0009]根据本申请的另一方面,提供一种计算设备,包括:处理器;存储器,所述存储器上存储有计算机程序;当所述处理器执行所述计算机程序时实现前述方法。
[0010]根据本申请的另一方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
[0011]根据一些实施例,通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度,避免时间、地域、品类等不同维度对模型训练和预测产生影响。
[0012]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
[0013]通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
[0014]图1示出本申请技术方案的一种应用场景的示意图。
[0015]图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
[0016]图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
[0017]图3示出根据本申请示例实施例的随机森林模型利用商业大数据进行风险评级的方法。
[0018]图4示出根据示例实施例对风险指标进行标准化的过程。
[0019]图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
[0020]图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
[0021]图7示出根据本申请示例实施例的总体风险预测和风险画像的示例。
[0022]图8示出根据本申请示例实施例的计算设备的框图。
具体实施方式
[0023]现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0024]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
[0025]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0026]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0027]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包
括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0028]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其它实施例相结合。
[0029]金融机构传统上对电商企业进行风险管理是以线下对企业的尽职调查为主。通过对公司经营状况、公司财产线索、法人财产线索(房产、车等)、银行信用状况、债务状况、法律诉讼等方面的调查,对企业进行风险评估。调查的数据来源主要包括企业财报、银行流水、纳税申报表、工商信息平台、房产局数据库、中登网数据库等。这种方式的主要问题在于,线下调查的人力成本和时间成本相对较高,数据的可信度(财报)、数据的清晰度(银行流水)均无法保证,而且数据无法批量获取。数据的获取通常依赖人工操作处理,这相对于电商平台上产生的海量数据而言是远远不能完成处理任务的。
[0030]此外,金融机构一般通过人工经验或者建立风险评分卡的方式进行风险评级预测。首先,结合样本标签对风险指标进行卡方分箱(基于逻辑回归算法),就是将连续型的数据离散化,比如年龄这个变量可以分箱为0

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电商大数据对风险指标进行标准化的方法,其特征在于,包括:获取电商数据样本;确定用于对所述电商数据样本进行统计计算的多个时间片;对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;根据所述属性维度组合对所述风险指标进行数据标准化。2.如权利要求1所述的方法,其特征在于,所述获取电商数据样本,包括:按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。3.如权利要求1所述的方法,其特征在于,对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,包括:根据各指标的时间片统计结果和风险指标定义计算风险指标。4.如权利要求1所述的方法,其特征在于,所述风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种。5.如权利要求4所述的方法,其特征在于,所述属性维度组合包括:品类、地域及时间窗口。6.如权利要求1所述的方法,其特征在于,根据所述属性维度组合对所述风险指标进行数据标准化,包括:筛选属性维度组合相同的风险样本集合;计算集合中风险指标的平均值以及标准差;根据所述平均值和标准差对风险指标进行标准化,标准化结果为风险指标和平均值的差与所述标准差之比。7.一种基于大数据进行风险评级预测的方法,其特征在于,包括:获取目标客户的电商数据样本;根据...

【专利技术属性】
技术研发人员:靳佳为程会芳
申请(专利权)人:深圳市致格数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1