用于对灰样本标签进行消歧的方法、系统和存储介质技术方案

技术编号:38106041 阅读:7 留言:0更新日期:2023-07-06 09:28
本说明书提供了一种用于对灰样本标签进行消歧的方法,包括:获取样本数据和类别标签空间;确定该样本数据中灰样本的歧义标签,并构成歧义标签空间,该歧义标签空间是类别标签空间的子集;以及使用该样本数据来训练分类模型,其中该分类模型的损失函数至少部分地基于该灰样本的歧义标签的权重矩阵,其中在训练该分类模型期间更新该权重矩阵。本说明书还提供了一种识别风险账户的方法,包括:对待识别账户进行特征提取以得到相关联的特征向量;将该特征向量输入预训练的分类模型以确定该待识别账户是否属于风险账户的分类概率,该分类模型是使用包括消歧后的灰样本的样本数据进行预训练的。还提供了众多其他方面。预训练的。还提供了众多其他方面。预训练的。还提供了众多其他方面。

【技术实现步骤摘要】
用于对灰样本标签进行消歧的方法、系统和存储介质


[0001]本说明书涉及大数据处理领域,并且更具体地涉及用于对灰样本标签进行消歧的方法、系统和存储介质。

技术介绍

[0002]在存在大量具有不确定标签的灰样本的大数据风控场景中,在模型训练中引入灰样本能够比只使用纯黑样本更好地提升模式性能。然而,有一部分灰样本带着不正确或模糊的标签混在训练过程中,会对模型效果产生干扰影响,产生歧义性。
[0003]因此,本说明书针对上述问题,提出了一种可以在训练过程中逐渐矫正模糊标签的方法,从而达到对灰样本标签进行消歧,消除错误标签带来的噪声,提升模型效果。

技术实现思路

[0004]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。
[0005]为了解决上述问题,本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
[0006]在一个方面,提供了一种用于对灰样本标签进行消歧的方法,所述方法包括:获取样本数据和类别标签空间;确定所述样本数据中的多个灰样本中的每个灰样本的多个歧义标签,其中所述多个灰样本的歧义标签构成歧义标签空间,所述歧义标签空间是所述类别标签空间的子集;以及使用所述样本数据来训练分类模型,其中所述分类模型的损失函数至少部分地基于所述灰样本的歧义标签的权重矩阵,其中在训练所述分类模型期间更新所述权重矩阵。
[0007]优选地,在训练所述分类模型期间更新所述权重矩阵包括:在每次迭代中,至少部分地基于所述分类模型输出的分类概率来计算所述灰样本的新权重矩阵并且使用新权重矩阵来执行下一次迭代。
[0008]优选地,在训练所述分类模型期间更新所述权重矩阵进一步包括:初始化所述灰样本的歧义标签的权重矩阵;重复以下步骤直到所述歧义标签收敛从而获得消歧后的灰样本标签:将样本数据和使用所述权重矩阵加权后的歧义标签输入所述分类模型,在所述分类模型中前向传播得到分类概率;使用所述分类概率来生成所述灰样本的新权重矩阵和计算所述分类模型的损失函数;以及至少部分地基于所述分类模型的所述损失函数来执行所述分类模型的反向传播以更新所述分类模型的网络参数。
[0009]优选地,初始化所述灰样本的权重矩阵至少部分地基于人工先验知识。
[0010]优选地,所述方法进一步包括,向所述歧义标签的所述权重矩阵添加动态边界以约束所述歧义标签的收敛态分布。
[0011]优选地,所述方法进一步包括,增加类别权重矩阵以均衡化所述样本数据,其中在所述灰样本占所述样本数据的比例超过阈值时,给予所述灰样本小权重。
[0012]优选地,所述方法进一步包括,使用指数移动平均EMA来控制生成所述灰样本的所述新权重矩阵的速度。
[0013]优选地,所述方法进一步包括将所述分类模型的多分类损失函数转换为二分类损失函数。
[0014]优选地,所述样本数据进一步包括黑样本和白样本,并且所述黑样本和所述白样本具有属于所述类别标签空间集合的不同的唯一性标签。
[0015]优选地,使用偏标签学习PLL来训练所述分类模型,并且其中所述训练与多任务学习MTL协同执行,其中所述协同执行包括:在与灰样本标签对应的辅助任务上使用MTL的交叉熵损失函数;并且在与黑样本标签对应的主要任务上使用PLL的损失函数。
[0016]优选地,所述灰样本包括以下一者或多者:策略或模型稽核中的灰样本;由强策略规则定义的灰样本;隐案;投诉未定性;或其组合。
[0017]在又一方面,还提供了一种用于对灰样本标签进行消歧的系统,所述系统包括数据获取模块,其配置成获取样本数据和类别标签空间;歧义标签确定模块,其配置成确定所述样本数据中的多个灰样本中的每个灰样本的多个歧义标签,其中所述多个灰样本的歧义标签构成歧义标签空间,所述歧义标签空间是所述类别标签空间的子集;以及训练模块,其配置成使用所述样本数据来训练分类模型,其中所述分类模型的损失函数至少部分地基于所述灰样本的歧义标签的权重矩阵,其中在训练所述分类模型期间更新所述权重矩阵。
[0018]在又一方面,提供了一种存储指令的非瞬态计算机可读存储介质,所述指令当被计算机执行时使所述计算机执行前述方法中任一项的用于对灰样本标签进行消歧的方法。
[0019]在又一方面,提供了一种用于对灰样本标签进行消歧的装置,所述装置在由处理器执行是使所述处理器执行前述方法中任一项的用于对灰样本标签进行消歧的方法。
[0020]在又一方面,提供了一种用于对灰样本标签进行消歧的设备,所述设备包括用于执行前述方法中任一项的用于对灰样本标签进行消歧的方法的装置。
[0021]在另一方面,提供了一种识别风险账户的方法,所述方法包括:对待识别账户进行特征提取以得到相关联的特征向量;将所述特征向量输入预训练的分类模型以得到所述待识别账户是否属于风险账户的分类概率,其中所述分类模型是使用包括灰样本的样本数据进行预训练的,并且其中所述灰样本使用前述方法中任一项所述的方法进行消歧。
[0022]在又一方面,提供了一种存储指令的非瞬态计算机可读存储介质,所述指令当被计算机执行时使所述计算机执行前述方法中任一项的识别风险账户的方法。
[0023]在又一方面,提供了一种用于对灰样本标签进行消歧的装置,所述装置在由处理器执行是使所述处理器执行前述方法中任一项的识别风险账户的方法。
[0024]在又一方面,提供了一种用于对灰样本标签进行消歧的设备,所述设备包括用于执行前述方法中任一项的识别风险账户的方法的装置。
[0025]提供本
技术实现思路
是为了以简化的形式来介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。各实施例的其他方面、特征和/或优点将部分地在下面的描述中阐述,并且将部分地从描述中显而易见,或者可以通过本说明书的
实践来学习。
附图说明
[0026]为了能详细地理解本说明书的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本说明书的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。在附图中,类似附图标记始终作类似的标识。要注意,所描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。
[0027]图1解说了根据本说明书实施例的对灰样本标签进行消歧的示例。
[0028]图2解说了根据本说明书实施例的用于对灰样本标签进行消歧的方法的示例。
[0029]图3解说了根据本说明书实施例的用于对灰样本标签进行消歧的方法的示例。
[0030]图4解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对灰样本标签进行消歧的方法,所述方法包括:获取样本数据和类别标签空间;确定所述样本数据中的多个灰样本中的每个灰样本的多个歧义标签,其中所述多个灰样本的歧义标签构成歧义标签空间,所述歧义标签空间是所述类别标签空间的子集;以及使用所述样本数据来训练分类模型,其中所述分类模型的损失函数至少部分地基于所述灰样本的歧义标签的权重矩阵,其中在训练所述分类模型期间更新所述权重矩阵。2.如权利要求1所述的方法,其中,在训练所述分类模型期间更新所述权重矩阵包括:在每次迭代中,至少部分地基于所述分类模型输出的分类概率来计算所述灰样本的新权重矩阵并且使用新权重矩阵来执行下一次迭代。3.如权利要求1所述的方法,其中,使用所述样本数据来训练所述分类模型进一步包括:初始化所述灰样本的歧义标签的权重矩阵;重复以下步骤直到所述损失函数收敛从而获得消歧后的灰样本标签:将样本数据和使用所述权重矩阵加权后的歧义标签输入所述分类模型,在所述分类模型中前向传播得到分类概率;使用所述分类概率来生成所述灰样本的新权重矩阵和计算所述分类模型的损失函数;以及至少部分地基于所述分类模型的所述损失函数来执行所述分类模型的反向传播以更新所述分类模型的网络参数。4.如权利要3所述的方法,其中,初始化所述灰样本的权重矩阵至少部分地基于先验知识。5.如权利要3所述的方法,进一步包括,向所述歧义标签的所述权重矩阵添加动态边界以约束所述歧义标签的收敛态分布。6.如权利要3所述的方法,进一步包括,增加类别权重矩阵以均衡化所述样本数据,其中在所述灰样本占所述样本数据的比例超过阈值时,给予所述灰样本小权重。7.如权利要3所述的方法,进一步包括,使用指数移动平均EMA来控制生成所述灰样本的所述新权重矩阵的速度。8.如权利要1所述的方法,其中,将所述分类模型的多分类损失函数转换为二分类损失函数。9.如权利要求8所述的方法,其中,所述样本数据进一步包括黑样本和白...

【专利技术属性】
技术研发人员:蒋晨之傅幸王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1