本公开涉及一种机器学习模型的测试数据优化方法、装置、电子设备及计算机可读介质。该方法包括:获取测试数据,所述测试数据中包括第一评分;根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合,其中,评分数据集合中包括至少一个评分数据,所述评分数据中包括第二评分;以及用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分,其中,更新后的所述测试数据用于进行机器学习模型的模型测试。本公开涉及的机器学习模型的测试数据优化方法、装置、电子设备,能够对用于机器学习模型的测试数据进行数据优化,得到的测试数据完备准确,从而提高测试后的机器学习模型的准确度。
Test data optimization method, device and electronic equipment of machine learning model
【技术实现步骤摘要】
机器学习模型的测试数据优化方法、装置及电子设备
本公开涉及计算机信息处理领域,具体而言,涉及一种机器学习模型的测试数据优化方法、装置、电子设备及计算机可读介质。
技术介绍
机器学习现如今在各个人工智能研究领域中已经得到了极大的发展,常见的机器学习模型可分为监督学习、无监督学习和强化学习这三类,每个类别中又可具体分为不同的算法。在当今大部分的应用场景中,人们都可以很方便的找到适合于自身问题的机器学习模型。对于机器学习模型的一般应用来说,用户首先确定某一个类别或者算法的机器学习模型,然后根据用户想解决的特定问题,用户输入特定的数据,机器学习模型建立特定的任务,然后通过特定的数据来对机器学习进行训练,在训练结束后,得到适用于某一个特定任务的机器学习模型。通常情况下,即使用同一个机器学习模型的算法,但是用不同的数据训练得到的机器学习模型是完全不同的。针对特定任务建立起来的不同的机器学习模型怎么才能说它工作的是好是坏?因此就需要用到了模型性能评估指标,模型评估也是机器学习研究中重要的一部分,主要分为三个步骤:对数据集进行划分,分为训练集和测试集两部分;对模型在测试集上面的泛化性能进行度量;基于测试集上面的泛化性能,依据假设检验来推广到全部数据集上面的泛化性能。为了得到准确的结果,一个机器学习模型需要大量的测试数据进行性能评估,但是,通产情况下,大量得出测试数据是难以获得的,特别是金融领域,金融领域的机器学习模型需要大量的用户特征,而金融领域的机器学习模型需要数十万的用户数据来进行模型测试,的机器学习模型的测试数据的个数很难达到测试数量的要求。因此,需要一种新的机器学习模型的测试数据优化方法、装置、电子设备及计算机可读介质。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本公开提供一种机器学习模型的测试数据优化方法、装置、电子设备及计算机可读介质,能够对用于机器学习模型的测试数据进行数据优化,得到的测试数据完备准确,从而提高测试后的机器学习模型的准确度。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一方面,提出一种机器学习模型的测试数据优化方法,该方法包括:获取测试数据,所述测试数据中包括第一评分;根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合,其中,评分数据集合中包括至少一个评分数据,所述评分数据中包括第二评分;以及用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分,其中,更新后的所述测试数据用于进行机器学习模型的模型测试。可选地,还包括:将第一类用户数据输入预定机器学习模型中,以获取所述测试数据中的第一评分。可选地,还包括:将第二类用户数据输入至少一个机器学习模型中,以获取所述评分数据中的第二评分。可选地,将第二类用户数据输入至少一个机器学习模型中,以获取所述评分数据中的第二评分包括:将所述第二类用户数据输入所述至少一个机器学习模型中,基于每一个机器学习模型分别获取模型初始评分数据;以及根据所述至少一个模型初始评分数据生成所述第二类用户数据对应的所述评分数据。可选地,还包括:基于所述第二评分的数值将所述评分数据分为多个评分数据集合;以及将所述多个评分数据集合中的至少一个评分集合中的数据进行数据扩展。可选地,根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合包括:基于所述第一评分数据的数值为所述测试数据由所述多个评分数据集合中确定所述目标评分数据集合。可选地,根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合包括:根据所述第一评分数据的数值与所述测试数据中的用户特征数据由多个评分数据集合中确定所述目标评分数据集合。可选地,根据所述第一评分数据的数值与所述测试数据中的用户特征数据由多个评分数据集合中所述确定目标评分数据集合包括:获取所述测试数据中的用户特征;基于所述测试数据中的用户特征和所述第一评分数据的数值确定分群标签;以及基于所述分群标签确定所述目标评分数据集合。可选地,还包括:获取所述评分数据中的用户特征;基于所述评分数据中的用户特征将所述评分数据分为多个评分数据集;以及为所述多个评分数据集分配所述分群标签。可选地,用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分包括:随机由所述目标评分数据集合中的至少一个评分数据确定出所述目标评分数据;以及用所述目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分。根据本公开的一方面,提出一种机器学习模型的测试数据优化装置,该装置包括:数据模块,用于获取测试数据,所述测试数据中包括第一评分;集合模块,用于根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合,其中,评分数据集合中包括至少一个评分数据,所述评分数据中包括第二评分;以及更新模块,用于用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分,其中,更新后的所述测试数据用于进行机器学习模型的模型测试。可选地,还包括:第一评分模块,用于将第一类用户数据输入预定机器学习模型中,以获取所述测试数据中的第一评分。可选地,还包括:第二评分模块,用于将第二类用户数据输入至少一个机器学习模型中,以获取所述评分数据中的第二评分。可选地,所述第二评分模块包括:输入单元,用于将所述第二类用户数据输入所述至少一个机器学习模型中,基于每一个机器学习模型分别获取模型初始评分数据;以及计算单元,用于根据所述至少一个模型初始评分数据生成所述第二类用户数据对应的所述评分数据。可选地,还包括:扩展单元,用于基于所述第二评分的数值将所述评分数据分为多个评分数据集合;以及将所述多个评分数据集合中的至少一个评分集合中的数据进行数据扩展。可选地,所述集合模块包括:第一分配单元,用于基于所述第一评分数据的数值为所述测试数据由所述多个评分数据集合中确定所述目标评分数据集合。可选地,所述集合模块包括:第二分配单元,用于根据所述第一评分数据的数值与所述测试数据中的用户特征数据由多个评分数据集合中确定所述目标评分数据集合。可选地,所述第二分配单元包括:分群子单元,用于获取所述测试数据中的用户特征;基于所述测试数据中的用户特征和所述第一评分数据的数值确定分群标签;以及基于所述分群标签确定所述目标评分数据集合。可选地,所述第二分配单元,还包括:分群标签子单元,用于获取所述评分数据中的用户特征;基于所述评分数据中的用户特征将所述评分数据分为多个评分数据集;以及为所述多个评分数据集分配所述分群标签。可选地,更新模块包括:选择单元,用于随机由所述目标评分数据集合中的至少一个评分数据确定出所述目标评分数据;以及更新单元,用于用所述目标评分数据中的所述第二评分更新所述测试数据中本文档来自技高网...
【技术保护点】
1.一种机器学习模型的测试数据优化方法,其特征在于,包括:/n获取测试数据,所述测试数据中包括第一评分;/n根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合,其中,评分数据集合中包括至少一个评分数据,所述评分数据中包括第二评分;以及/n用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分,其中,更新后的所述测试数据用于进行机器学习模型的模型测试。/n
【技术特征摘要】
1.一种机器学习模型的测试数据优化方法,其特征在于,包括:
获取测试数据,所述测试数据中包括第一评分;
根据所述第一评分为所述测试数据由多个评分数据集合中确定目标评分数据集合,其中,评分数据集合中包括至少一个评分数据,所述评分数据中包括第二评分;以及
用所述目标评分数据集合中的目标评分数据中的所述第二评分更新所述测试数据中的所述第一评分,其中,更新后的所述测试数据用于进行机器学习模型的模型测试。
2.如权利要求1所述的方法,其特征在于,还包括:
将第一类用户数据输入预定机器学习模型中,以获取所述测试数据中的第一评分。
3.如权利要求1-2中任一所述的方法,其特征在于,还包括:
将第二类用户数据输入至少一个机器学习模型中,以获取所述评分数据中的第二评分。
4.如权利要求1-3中任一所述的方法,其特征在于,将第二类用户数据输入至少一个机器学习模型中,以获取所述评分数据中的第二评分包括:
将所述第二类用户数据输入所述至少一个机器学习模型中,基于每一个机器学习模型分别获取模型初始评分数据;以及
根据所述至少一个模型初始评分数据生成所述第二类用户数据对应的所述评分数据。
5.如权利要求1-4中任一所述的方法,其特征在于,还包括:
基于所述第二评分的数值将所述评分数据分为多个评分数据集合;以及
将所述多个评分数据集合中的至少一个评分集合中的数据进行数据扩展。
6.如权利要...
【专利技术属性】
技术研发人员:熊庄,苏绥绥,常富洋,
申请(专利权)人:北京淇瑀信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。