业务数据处理方法及装置制造方法及图纸

技术编号:29930248 阅读:17 留言:0更新日期:2021-09-04 18:57
本说明书涉及机器学习技术领域,具体地公开了一种业务数据处理方法及装置,其中,该方法包括:获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集;根据预设业务逻辑将全特征样本集拆分为多个部分特征样本集;利用多个部分特征样本集中各部分特征样本集和标签集构建子分类器,得到各部分特征样本集对应的子分类器;依据各子分类器对同一全特征样本对应的部分特征样本的风险分类结果之间的异同,生成多视角对比学习约束;基于多视角对比学习约束对各子分类器进行优化,优化后的子分类器用于对目标业务数据进行处理。上述方案可以提高业务数据处理效率和准确率。案可以提高业务数据处理效率和准确率。案可以提高业务数据处理效率和准确率。

【技术实现步骤摘要】
业务数据处理方法及装置


[0001]本说明书涉及机器学习
,特别涉及一种业务数据处理方法及装置。

技术介绍

[0002]随着线上业务数据处理技术的快速发展,线上业务数据处理越来越多样化、越来越便捷。目前,在许多业务场景中,常常需要利用一些已知的业务数据,来预测目标业务数据的类型,进而根据预测的类型来执行业务数据处理。例如,在电子支付场景中,通常需要构建相应的预测模型,并利用该预测模型基于业务数据来预测该业务数据对应的交易是否存在诈骗风险。
[0003]然而,现有的业务数据处理方法具体实施时,往往存在所建立的预测模型准确度低的技术问题,导致不能在客户资产可能流失之前进行精准预测,需要业务人员根据经验进行辅助判断,导致业务数据处理效率低且不能对业务数据进行适当准确的处理,用户体验差。
[0004]针对上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本说明书实施例提供了一种业务数据处理方法及装置,以提高业务数据处理的效率和准确率问题。
[0006]本说明书实施例提供了一种业务数据处理方法,包括:获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集,其中,标签集包括全特征样本集中各全特征样本所对应的风险类别;根据预设业务逻辑将全特征样本集拆分为多个部分特征样本集;利用多个部分特征样本集中各部分特征样本集和标签集构建子分类器,得到各部分特征样本集对应的子分类器;依据各部分特征样本集对应的子分类器对同一全特征样本对应的部分特征样本的风险分类结果之间的异同,生成多视角对比学习约束;基于多视角对比学习约束对各部分特征样本集对应的子分类器进行优化,其中,优化后的子分类器用于对目标业务数据进行处理。
[0007]在一个实施例中,风险类别包括正类和负类,相应的,全特征样本集中包括正样本和负样本,其中,全特征样本集中正样本的数目少于全特征样本集中负样本的数目,正样本对应的标签为正类,负样本对应的标签为负类;在获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集之后,还包括:对全特征样本集进行随机过采样,以增加全特征样本集中的正样本的数目,得到过采样后的全特征样本集;对过采样后的全特征样本集进行随机欠采样,以减少全特征样本集中的负样本的数目。
[0008]在一个实施例中,在利用多个部分特征样本集中各部分特征样本集和标签集构建子分类器,得到各部分特征样本集对应的子分类器之后,还包括:利用各部分特征样本集对应的子分类器对各部分特征样本集中各部分特征样本进行分类;提取各部分特征样本集中各部分特征样本的近邻部分特征样本,根据各部分特征样本集中各部分特征样本的类别与
其近邻部分特征样本的类别之间的异同,计算各部分特征样本集对应的类间相似度矩阵;相应的,基于多视角对比学习约束对各部分特征样本集对应的子分类器进行优化,包括:基于各部分特征样本集对应的类间相似度矩阵生成类间相似度约束;根据多视角对比学习约束和类间相似度约束,对各部分特征样本集对应的子分类器进行优化。
[0009]在一个实施例中,多视角对比学习约束为:
[0010][0011]其中,R
vcl
为多视角对比学习约束,V为多个部分特征样本集的个数,N为各部分特征样本集中的部分特征样本的个数,f
p
为第p个部分特征样本集对应的子分类器,f
q
为第q个部分特征样本集对应的子分类器,为第p个部分特征样本集中的第i个部分特征样本,为第q个部分特征样本集中的第i个部分特征样本,和均与全特征样本集中的第i个全特征样本对应。
[0012]在一个实施例中,类间相似度矩阵中的元素为:
[0013][0014]其中,为第v个部分特征样本集对应的类间相似度矩阵中的元素,表示与之间的相似度,v=1,2,...V,V为多个部分特征样本集的个数,表示第v个部分特征样本集中的第i个部分特征样本,表示第v个部分特征样本集中的第j个部分特征样本,表示的近邻部分特征样本,表示的近邻部分特征样本,i,j=1,2,...N,N为各部分特征样本集中的部分特征样本的个数。
[0015]在一个实施例中,类间相似度约束为:
[0016][0017]其中,R
bcs
为类间相似度约束,V为多个部分特征样本集的个数,N为各部分特征样本集中的部分特征样本的个数,表示第v个部分特征样本集中的第i个部分特征样本,表示第v个部分特征样本集中的第j个部分特征样本,f
v
为第v个部分特征样本集对应的子分类器,为第v个部分特征样本集对应的类间相似度矩阵中的元素,表示与之间的相似度。
[0018]在一个实施例中,根据多视角对比学习约束和类间相似度约束,对各部分特征样本集对应的子分类器进行优化,包括:通过最小化目标函数直至达到预设迭代次数或两次损失函数的损失值之差小于预设阈值,其中,目标函数为:
[0019]L=R
emp
+αR
bcs
+γR
vcl
[0020][0021]其中,L为目标函数,R
emp
为经验损失,R
vcl
为多视角对比学习约束,R
bcs
为类间相似度约束,α、γ为超参数,V为多个部分特征样本集的个数,N为各部分特征样本集中的部分特征样本的个数,表示第v个部分特征样本集中的第i个部分特征样本,f
v
为第v个部分特征样本集对应的子分类器,为标签集中与对应的标签。
[0022]在一个实施例中,基于优化后的子分类器对目标业务数据进行处理,包括:根据优化后的各部分特征样本集对应的子分类器,生成目标分类器;利用目标分类器对目标业务数据进行处理,确定目标业务数据对应的业务的风险类型;基于目标业务数据对应的业务的风险类型,对目标业务数据进行处理。
[0023]本说明书实施例还提供了一种业务数据处理装置,包括:获取模块,用于获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集,其中,标签集包括全特征样本集中各全特征样本所对应的风险类别;拆分模块,用于根据预设业务逻辑将全特征样本集拆分为多个部分特征样本集;构建模块,用于利用多个部分特征样本集中各部分特征样本集和标签集构建子分类器,得到各部分特征样本集对应的子分类器;生成模块,用于依据各部分特征样本集对应的子分类器对同一全特征样本对应的部分特征样本的风险分类结果之间的异同,生成多视角对比学习约束;优化模块,用于基于多视角对比学习约束对各部分特征样本集对应的子分类器进行优化,其中,优化后的子分类器用于对目标业务数据进行处理。
[0024]本说明书实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的业务数据处理方法的步骤。
[0025]本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的业务数据处理方法的步骤。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种业务数据处理方法,其特征在于,包括:获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集,其中,所述标签集包括所述全特征样本集中各全特征样本所对应的风险类别;根据预设业务逻辑将所述全特征样本集拆分为多个部分特征样本集;利用所述多个部分特征样本集中各部分特征样本集和所述标签集构建子分类器,得到所述各部分特征样本集对应的子分类器;依据所述各部分特征样本集对应的子分类器对同一全特征样本对应的部分特征样本的风险分类结果之间的异同,生成多视角对比学习约束;基于所述多视角对比学习约束对所述各部分特征样本集对应的子分类器进行优化,其中,优化后的子分类器用于对目标业务数据进行处理。2.根据权利要求1所述的方法,其特征在于,所述风险类别包括正类和负类,相应的,所述全特征样本集中包括正样本和负样本,其中,所述全特征样本集中正样本的数目少于所述全特征样本集中负样本的数目,所述正样本对应的标签为正类,所述负样本对应的标签为负类;在获取具有用于表征业务风险特征的特征数据的全特征样本集及标签集之后,还包括:对所述全特征样本集进行随机过采样,以增加所述全特征样本集中的正样本的数目,得到过采样后的全特征样本集;对所述过采样后的全特征样本集进行随机欠采样,以减少所述全特征样本集中的负样本的数目。3.根据权利要求1所述的方法,其特征在于,在利用所述多个部分特征样本集中各部分特征样本集和所述标签集构建子分类器,得到所述各部分特征样本集对应的子分类器之后,还包括:利用所述各部分特征样本集对应的子分类器对所述各部分特征样本集中各部分特征样本进行分类;提取所述各部分特征样本集中各部分特征样本的近邻部分特征样本,根据所述各部分特征样本集中各部分特征样本的类别与其近邻部分特征样本的类别之间的异同,计算所述各部分特征样本集对应的类间相似度矩阵;相应的,基于所述多视角对比学习约束对所述各部分特征样本集对应的子分类器进行优化,包括:基于所述各部分特征样本集对应的类间相似度矩阵生成类间相似度约束;根据所述多视角对比学习约束和所述类间相似度约束,对所述各部分特征样本集对应的子分类器进行优化。4.根据权利要求1所述的方法,其特征在于,所述多视角对比学习约束为:其中,R
vcl
为所述多视角对比学习约束,V为所述多个部分特征样本集的个数,N为所述各部分特征样本集中的部分特征样本的个数,f
p
为第p个部分特征样本集对应的子分类器,
f
q
为第q个部分特征样本集对应的子分类器,为第p个部分特征样本集中的第i个部分特征样本,为第q个部分特征样本集中的第i个部分特征样本,和均与所述全特征样本集中的第i个全特征样本对应。5.根据权利要求3所述的方法,其特征在于,所述类间相似度矩阵中的元素为:其中,为第v个部分特征样本集对应的类间相似度矩阵中的元素,表示与之间的相似度,v=1,2,.....

【专利技术属性】
技术研发人员:王照王娜袁世聪
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1