System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种负样本的筛选方法、装置、电子设备及存储介质。
技术介绍
1、随着科技的进步和市场竞争的加剧,在当今的保险行业中,个性化服务和精准推荐已成为行业发展的重要趋势,通过训练好的机器学习模型推荐潜在保险用户得到了业内的广泛应用;但是,由于保险行业的特殊性,导致正负样本的比例极度的不平衡,可以达到1:500,甚至更高,这导致通过训练得到的模型更倾向于捕获负样本的特征而忽略正样本的特征,从而难以通过模型推荐出潜在的保险用户。
2、如何降低训练数据中负样本的数量,提升正负样本的比例,从而为训练得到优质的潜在保险用户的推荐模型提供依据,是业内研究的重点问题。
技术实现思路
1、本专利技术提供了一种负样本的筛选方法、装置、电子设备及存储介质,可以降低训练数据中负样本的数量,提升正负样本的比例,可以为训练得到优质的潜在保险用户的推荐模型提供依据。
2、根据本专利技术的一方面,提供了一种负样本的筛选方法,该方法包括:
3、获取原始保险数据集,并确定所述原始保险数据集中的正样本的数目与负样本的数目的第一比例;其中,所述正样本为已投保目标保险产品的保险数据,所述负样本为未投保目标保险产品的保险数据;
4、在所述第一比例不满足预设比例要求的情况下,确定与所述原始保险数据集对应的各样本集,并确定与目标样本集匹配的目标负样本筛选规则;
5、基于所述目标负样本筛选规则对所述目标样本集中的各负样本进行筛选,得到筛选后的目标
6、确定所述筛选后的目标样本集中的正样本的数目与负样本的数目的第二比例,在所述第二比例满足预设比例要求的情况下,停止对所述目标样本集的筛选;所述第一比例小于第二比例。
7、根据本专利技术的另一方面,提供了一种负样本的筛选装置,该装置包括:
8、第一比例确定模块,用于获取原始保险数据集,并确定所述原始保险数据集中的正样本的数目与负样本的数目的第一比例;其中,所述正样本为已投保目标保险产品的保险数据,所述负样本为未投保目标保险产品的保险数据;
9、样本集确定模块,用于在所述第一比例不满足预设比例要求的情况下,确定与所述原始保险数据集对应的各样本集,并确定与目标样本集匹配的目标负样本筛选规则;
10、负样本筛选模块,基于所述目标负样本筛选规则对所述目标样本集中的各负样本进行筛选,得到筛选后的目标样本集;
11、第二比例确定模块,用于确定所述筛选后的目标样本集中的正样本的数目与负样本的数目的第二比例,在所述第二比例满足预设比例要求的情况下,停止对所述目标样本集的筛选;所述第一比例小于第二比例。
12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的负样本的筛选方法。
16、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的负样本的筛选方法。
17、根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本专利技术任一实施例所述的负样本的筛选方法。
18、本专利技术实施例的技术方案,通过获取原始保险数据集,并确定所述原始保险数据集中的正样本的数目与负样本的数目的第一比例;其中,所述正样本为已投保目标保险产品的保险数据,所述负样本为未投保目标保险产品的保险数据;在所述第一比例不满足预设比例要求的情况下,确定与所述原始保险数据集对应的各样本集,并确定与目标样本集匹配的目标负样本筛选规则;基于所述目标负样本筛选规则对所述目标样本集中的各负样本进行筛选,得到筛选后的目标样本集;确定所述筛选后的目标样本集中的正样本的数目与负样本的数目的第二比例,在所述第二比例满足预设比例要求的情况下,停止对所述目标样本集的筛选;所述第一比例小于第二比例,可以降低训练数据中负样本的数量,提升正负样本的比例,可以为训练得到优质的潜在保险用户的推荐模型提供依据。
19、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种负样本的筛选方法,其特征在于,包括:
2.根据权利要求1所述的负样本的筛选方法,其特征在于,所述获取原始保险数据集,并确定所述原始保险数据集中的正样本的数目与负样本的数目的第一比例,包括:
3.根据权利要求1所述的负样本的筛选方法,其特征在于,所述确定与所述原始保险数据集对应的各样本集,包括:
4.根据权利要求3所述的负样本的筛选方法,其特征在于,所述确定与目标样本集匹配的目标负样本筛选规则,包括:
5.根据权利要求4所述的负样本的筛选方法,其特征在于,所述目标负样本筛选规则通过下述步骤确定:
6.根据权利要求5所述的负样本的筛选方法,其特征在于,所述基于所述目标负样本筛选规则对所述目标样本集中的各负样本进行筛选,得到筛选后的目标样本集,包括:
7.根据权利要求1所述的负样本的筛选方法,其特征在于,在确定所述第二比例满足预设比例要求之后,还包括:
8.一种负样本的筛选装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储
...【技术特征摘要】
1.一种负样本的筛选方法,其特征在于,包括:
2.根据权利要求1所述的负样本的筛选方法,其特征在于,所述获取原始保险数据集,并确定所述原始保险数据集中的正样本的数目与负样本的数目的第一比例,包括:
3.根据权利要求1所述的负样本的筛选方法,其特征在于,所述确定与所述原始保险数据集对应的各样本集,包括:
4.根据权利要求3所述的负样本的筛选方法,其特征在于,所述确定与目标样本集匹配的目标负样本筛选规则,包括:
5.根据权利要求4所述的负样本的筛选方法,其特征在于,所述目标负样本筛选规则通过下述步骤确定:
...
【专利技术属性】
技术研发人员:周彬,段凯,
申请(专利权)人:太平人寿保险有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。