System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本文件涉及数据处理,尤其涉及一种数据处理方法、装置及设备。
技术介绍
1、随着人工智能技术的迅速发展,网络业务服务的数量和类型越来越多,网络风险也随之增多,随着人们对自己的数据的隐私程度越来越重视,如何为用户提供更加安全的网络环境,成为网络服务商关注的焦点。
2、在风控场景下,可以通过预先训练的人工智能模型和某业务的业务数据,对执行该业务是否存在风险进行检测,但是,由于用于训练人工智能模型的训练数据可能存在数据量小、包含的特征不丰富等问题,导致人工智能模型的训练效果差,使得通过预先训练的人工智能模型进行风险检测的检测准确性差,因此,需要一种在风控场景下,能提高模型的训练效果以准确的确定执行某业务是否存在风险的解决方案。
技术实现思路
1、本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种在风控场景下,能提高模型的训练效果以准确的确定执行某业务是否存在风险的解决方案。
2、为了实现上述技术方案,本说明书实施例是这样实现的:
3、第一方面,本说明书实施例提供了一种数据处理方法,包括:获取预先训练的分类模型,所述分类模型为基于源域特征样本、所述源域特征样本对应的预设分类标签、目标域特征样本,以及所述目标域特征样本对应的预设分类标签进行训练得到,所述源域特征样本对应的预设分类标签为负标签,所述目标域特征样本对应的预设分类标签为正标签;通过所述预先训练的分类模型,分别对所述源域特征样本和所述目标域特征样本进行分类处理,得到所述源域特征样本对
4、第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:第一获取模块,用于获取预先训练的分类模型,所述分类模型为基于源域特征样本、所述源域特征样本对应的预设分类标签、目标域特征样本,以及所述目标域特征样本对应的预设分类标签进行训练得到,所述源域特征样本对应的预设分类标签为负标签,所述目标域特征样本对应的预设分类标签为正标签;分类处理模块,用于通过所述预先训练的分类模型,分别对所述源域特征样本和所述目标域特征样本进行分类处理,得到所述源域特征样本对应的标签预测值以及所述目标域特征样本对应的标签预测值;阈值确定模块,用于基于所述目标域特征样本对应的标签预测值,确定样本筛选阈值;第一训练模块,用于基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,并通过所述目标特征样本和所述目标域特征样本,对预设业务模型进行训练,得到训练后的业务模型,所述业务模型为基于预设机器学习算法构建的用于对所述目标域的数据进行处理的模型。
5、第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取预先训练的分类模型,所述分类模型为基于源域特征样本、所述源域特征样本对应的预设分类标签、目标域特征样本,以及所述目标域特征样本对应的预设分类标签进行训练得到,所述源域特征样本对应的预设分类标签为负标签,所述目标域特征样本对应的预设分类标签为正标签;通过所述预先训练的分类模型,分别对所述源域特征样本和所述目标域特征样本进行分类处理,得到所述源域特征样本对应的标签预测值以及所述目标域特征样本对应的标签预测值;基于所述目标域特征样本对应的标签预测值,确定样本筛选阈值;基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,并通过所述目标特征样本和所述目标域特征样本,对预设业务模型进行训练,得到训练后的业务模型,所述业务模型为基于预设机器学习算法构建的用于对所述目标域的数据进行处理的模型。
6、第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取预先训练的分类模型,所述分类模型为基于源域特征样本、所述源域特征样本对应的预设分类标签、目标域特征样本,以及所述目标域特征样本对应的预设分类标签进行训练得到,所述源域特征样本对应的预设分类标签为负标签,所述目标域特征样本对应的预设分类标签为正标签;通过所述预先训练的分类模型,分别对所述源域特征样本和所述目标域特征样本进行分类处理,得到所述源域特征样本对应的标签预测值以及所述目标域特征样本对应的标签预测值;基于所述目标域特征样本对应的标签预测值,确定样本筛选阈值;基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,并通过所述目标特征样本和所述目标域特征样本,对预设业务模型进行训练,得到训练后的业务模型,所述业务模型为基于预设机器学习算法构建的用于对所述目标域的数据进行处理的模型。
本文档来自技高网...【技术保护点】
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,所述源域特征样本的数据量大于所述目标域特征样本的数据量,在所述获取预先训练的分类模型之前,还包括:
3.根据权利要求2所述的方法,所述基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,包括:
4.根据权利要求1所述的方法,所述基于所述目标域特征样本对应的标签预测值,确定样本筛选阈值,包括:
5.根据权利要求4所述的方法,所述预设分位点有多个,所述基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,并通过所述目标特征样本和所述目标域特征样本,对预设业务模型进行训练,得到训练后的业务模型,包括:
6.根据权利要求5所述的方法,所述获取每个所述预设分位点对应的训练后的业务模型的模型分值,包括:
7.根据权利要求6所述的方法,所述获取所述预设分位点对应的训练样本集中包含的特征样本的业务标签,包括:
8.根据权利要求1所述的方法,所述方法还包括:
9.一种
10.一种数据处理设备,所述数据处理设备包括:
...【技术特征摘要】
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,所述源域特征样本的数据量大于所述目标域特征样本的数据量,在所述获取预先训练的分类模型之前,还包括:
3.根据权利要求2所述的方法,所述基于所述样本筛选阈值和所述源域特征样本对应的标签预测值,从所述源域特征样本选取目标特征样本,包括:
4.根据权利要求1所述的方法,所述基于所述目标域特征样本对应的标签预测值,确定样本筛选阈值,包括:
5.根据权利要求4所述的方法,所述预设分位点有多个,所述基于所述样本筛选阈值和所述源域特征样本对...
【专利技术属性】
技术研发人员:郑开元,许小龙,董迹海,吴垠,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。