用于对灰样本标签进行消歧的方法、系统和存储介质技术方案

技术编号：38106041 阅读：7 留言：0更新日期：2023-07-06 09:28

本说明书提供了一种用于对灰样本标签进行消歧的方法，包括：获取样本数据和类别标签空间；确定该样本数据中灰样本的歧义标签，并构成歧义标签空间，该歧义标签空间是类别标签空间的子集；以及使用该样本数据来训练分类模型，其中该分类模型的损失函数至少部分地基于该灰样本的歧义标签的权重矩阵，其中在训练该分类模型期间更新该权重矩阵。本说明书还提供了一种识别风险账户的方法，包括：对待识别账户进行特征提取以得到相关联的特征向量；将该特征向量输入预训练的分类模型以确定该待识别账户是否属于风险账户的分类概率，该分类模型是使用包括消歧后的灰样本的样本数据进行预训练的。还提供了众多其他方面。预训练的。还提供了众多其他方面。预训练的。还提供了众多其他方面。

全部详细技术资料下载

【技术实现步骤摘要】
用于对灰样本标签进行消歧的方法、系统和存储介质

[0001]本说明书涉及大数据处理领域，并且更具体地涉及用于对灰样本标签进行消歧的方法、系统和存储介质。

技术介绍

[0002]在存在大量具有不确定标签的灰样本的大数据风控场景中，在模型训练中引入灰样本能够比只使用纯黑样本更好地提升模式性能。然而，有一部分灰样本带着不正确或模糊的标签混在训练过程中，会对模型效果产生干扰影响，产生歧义性。
[0003]因此，本说明书针对上述问题，提出了一种可以在训练过程中逐渐矫正模糊标签的方法，从而达到对灰样本标签进行消歧，消除错误标签带来的噪声，提升模型效果。

技术实现思路

[0004]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。
[0005]为了解决上述问题，本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
[0006]在一个方面，提供了一种用于对灰样本标签进行消歧的方法，所述方法包括：获取样本数据和类别标签空间；确定所述样本数据中的多个灰样本中的每个灰样本的多个歧义标签，其中所述多个灰样本的歧义标签构成歧义标签空间，所述歧义标签空间是所述类别标签空间的子集；以及使用所述样本数据来训练分类模型，其中所述分类模型的损失函数至少部分地基于所述灰样本的歧义标签的权重矩阵...

【技术保护点】

【技术特征摘要】
1.一种用于对灰样本标签进行消歧的方法，所述方法包括：获取样本数据和类别标签空间；确定所述样本数据中的多个灰样本中的每个灰样本的多个歧义标签，其中所述多个灰样本的歧义标签构成歧义标签空间，所述歧义标签空间是所述类别标签空间的子集；以及使用所述样本数据来训练分类模型，其中所述分类模型的损失函数至少部分地基于所述灰样本的歧义标签的权重矩阵，其中在训练所述分类模型期间更新所述权重矩阵。2.如权利要求1所述的方法，其中，在训练所述分类模型期间更新所述权重矩阵包括：在每次迭代中，至少部分地基于所述分类模型输出的分类概率来计算所述灰样本的新权重矩阵并且使用新权重矩阵来执行下一次迭代。3.如权利要求1所述的方法，其中，使用所述样本数据来训练所述分类模型进一步包括：初始化所述灰样本的歧义标签的权重矩阵；重复以下步骤直到所述损失函数收敛从而获得消歧后的灰样本标签：将样本数据和使用所述权重矩阵加权后的歧义标签输入所述分类模型，在所述分类模型中前向传播得到分类概率；使用所述分类概率来生成所述灰样本的新权重矩阵和计算所述分类模型的损失函数；以及至少部分地基于所述分类模型的所述损失函数来执行所述分类模型的反向传播以更新所述分类模型的网络参数。4.如权利要3所述的方法，其中，初始化所述灰样本的权重矩阵至少部分地基于先验知识。5.如权利要3所述的方法，进一步包括，向所述歧义标签的所述权重矩阵添加动态边界以约束所述歧义标签的收敛态分布。6.如权利要3所述的方法，进一步包括，增加类别权重矩阵以均衡化所述样本数据，其中在所述灰样本占所述样本数据的比例超过阈值时，给予所述灰样本小权重。7.如权利要3所述的方法，进一步包括，使用指数移动平均EMA来控制生成所述灰样本的所述新权重矩阵的速度。8.如权利要1所述的方法，其中，将所述分类模型的多分类损失函数转换为二分类损失函数。9.如权利要求8所述的方法，其中，所述样本数据进一步包括黑样本和白...

【专利技术属性】
技术研发人员：蒋晨之，傅幸，王维强，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人