模型、保险风控模型训练方法、装置及电子设备制造方法及图纸

技术编号:24411720 阅读:41 留言:0更新日期:2020-06-06 09:31
本说明书实施例公开了一种模型、保险风控模型训练方法、装置及电子设备,其基本思想是,获取待选数据样本,待选数据样本包含非异常数据和异常数据,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。

Model, insurance risk control model training method, device and electronic equipment

【技术实现步骤摘要】
模型、保险风控模型训练方法、装置及电子设备
本说明书实施例涉及计算机
,尤其涉及一种模型、保险风控模型训练方法、装置及电子设备。
技术介绍
借助于计算机技术的发展,线上业务增长显著。对一些特定业务,可以利用业务模型进行处理,该处理可以是分类、预测、识别等,在此不受具体限定。通常,在业务模型应用之前,选取数据样本进行训练,其目的在于确定业务模型中各特征参数的具体值。数据样本是影响业务模型精确度的一个关键因素,一般情况下,数据样本越丰富,则业务模型精确度越高。
技术实现思路
有鉴于此,本说明书实施例提供了一种提升模型精确度的模型、保险风控模型训练方法、装置及电子设备。本说明书实施例采用下述技术方案:本说明书实施例提供一种模型训练方法,包括:获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;利用得到的所述白样本和黑样本进行训练,得到业务模型。本说明书实施例还提供一种保险风控模型训练方法,包括:获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;利用得到的所述白样本和黑样本进行训练,得到保险风控模型。本说明书实施例还提供一种模型训练装置,包括:获取模块,获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;聚类模块,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;训练模块,利用得到的所述白样本和黑样本进行训练,得到业务模型。本说明书实施例还提供一种保险风控模型训练装置,包括:获取模块,获取待选保险数据样本,所述待选保险数据样本所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;聚类模块,对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;训练模块,利用得到的所述白样本和黑样本进行训练,得到保险风控模型。本说明书实施例还提供一种电子设备,包括:处理器;以及被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;利用得到的所述白样本和黑样本进行训练,得到业务模型。本说明书实施例还提供一种电子设备,包括:处理器;以及被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;利用得到的所述白样本和黑样本进行训练,得到保险风控模型。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书实施例记载的技术方案是,获取待选数据样本,待选数据样本包含具有异常因子的异常数据,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。这样,利用本说明书实施例记载的方案,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。附图说明此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,本说明书的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书实施例提出的一种模型训练方法的流程图;图2为本说明书实施例提出的一种模型训练方法的一个应用示例的流程图;图3为本说明书实施例提出的一种保险风控模型训练方法的流程图;图4为本说明书实施例提出的一种模型训练装置的结构示意图;图5为本说明书实施例提出的一种保险风控模型训练装置的结构示意图。具体实施方式对现有技术进行分析发现,在一些业务场景中,如果缺乏数据样本或数据样本有限,则会影响基于业务模型的场景应用。那么,如何在这种情况下拓展业务模型的训练数据样本成为业界一个重要课题。本说明书实施例提出一种模型、保险风控模型训练方法、装置及电子设备,其基本思想是,获取待选数据样本,待选数据样本包含非异常数据和具有异常因子的异常数据,对待选数据样本进行聚类,可以得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。利用本说明书实施例记载的方案,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。为使本申请的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保本文档来自技高网...

【技术保护点】
1.一种模型训练方法,包括:/n获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;/n对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;/n根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;/n利用得到的所述白样本和黑样本进行训练,得到业务模型。/n

【技术特征摘要】
1.一种模型训练方法,包括:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。


2.如权利要求1所述的方法,获取待选数据样本,包括:
利用所述异常因子从数据库中提取所述异常数据;
利用非异常因子从数据库中提取所述非异常数据;
根据所述异常数据和所述非异常数据确定所述待选数据样本。


3.如权利要求1所述的方法,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
统计各所述数据组中的异常数据,得到各个所述数据组的所述统计值;
根据所述统计值与所述样本属性之间的对应关系,确定所述统计值所属的数据组的所述样本属性。


4.如权利要求1所述的方法,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性。


5.如权利要求4所述的方法,根据各所述数据组中异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中所述异常数据的占比超过阈值,则判定所述数据组的样本属性为所述黑样本。


6.如权利要求4所述的方法,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中各数据均为所述非异常数据,则判定所述数据组的样本属性为所述白样本。


7.如权利要求1所述的方法,还包括:
利用训练得到的所述业务模型对预测数据进行预测,得到预测结果;
获取待选数据样本,包括;
根据所述预测结果所属的预测数据更新所述待选数据样本。


8.一种保险风控模型训练方法,包括:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。


9.一种模型训练装置,包括:
获取模块,获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块,利用得到的所述白样本和黑样本进行训练,得到业务模型。


10.如权利要求9所述的装置,获取待选数据样本,包括:
利用所述异常因子从数据库中提取所述异常数据;
利用非异常因...

【专利技术属性】
技术研发人员:王修坤张文博
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1