一种确定二分类模型的预测效果的方法及装置制造方法及图纸

技术编号:24997322 阅读:30 留言:0更新日期:2020-07-24 17:59
本发明专利技术实施例公开了一种确定二分类模型的预测效果的方法及装置,其中方法包括:获取P个正样本数据和Q个负样本数据,并根据P个正样本数据和Q个负样本数据,得到M个二分类模型,针对于第i个二分类模型,使用第i个二分类模型对R个正样本数据和K个负样本数据进行预测,得到R+K个样本数据的预测分值,进而根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定第i个二分类模型的预测效果。本发明专利技术实施例提供了一种根据正样本数据的预测分值确定二分类模型的预测效果的方法,通过基于M个样本数据的预测效果衡量机器学习的质量,可以有效确定二分类模型的预测效果。

【技术实现步骤摘要】
一种确定二分类模型的预测效果的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种确定二分类模型的预测效果的方法及装置。
技术介绍
在机器学习领域中,通常可以根据用户输入的样本数据训练得到多个模型,进而使用每个模型对待预测数据进行预测,并根据待预测数据对应的预测结果,确定待预测数据的类型。比如,以二分类模型为例,预测结果可以由标签“0”和标签“1”来表示,在使用二分类模型对待预测数据进行预测时,若待预测数据对应的预测结果大于或者等于预设阈值,则可以认为待预测数据为标签“1”对应的类型,相应地,若待预测数据对应的预测结果小于预设阈值,则可以认为待预测数据为标签“0”对应的类型。在实际应用中,由于采用的训练方式不同,或者使用的样本数据不同,可能会使得训练得到的多个二分类模型的预测效果不同。若二分类模型的预测效果较好,则使用二分类模型对待预测数据进行预测得到的预测结果很可能与待预测数据的真实类型相同,若二分类模型的预测效果较差,则使用二分类模型对待预测数据进行预测得到的预测结果很可能与待预测数据的真实类型不同。由此可知,在使用二分类模型对待预测数据进行预测之前,确定训练得到的二分类模型的效果是非常重要的,然而,目前还未有一种比较完善地能够有效确定二分类模型的预测效果的方法。综上,目前亟需一种确定二分类模型的预测效果的方法,用以有效确定二分类模型的预测效果。
技术实现思路
本专利技术实施例提供一种确定二分类模型的预测效果的方法,用以有效确定二分类模型的预测效果。本专利技术实施例提供的一种确定二分类模型的预测效果的方法,所述方法包括:获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;其中,P、Q、M、R、K均为正整数,i=1,……,M。可选地,所述根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果,包括:根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。可选地,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。可选地,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。可选地,所述方法还包括:根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。本专利技术实施例提供的一种确定二分类模型的预测效果的装置,所述装置包括:获取模块,用于获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;以及获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;训练模块,用于根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;确定模块,用于针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;其中,P、Q、M、R、K均为正整数,i=1,……,M。可选地,所述确定模块用于:根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。可选地,所述训练模块用于:根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。可选地,所述训练模块用于:基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。可选地,所述装置还包括预测模块,所述预测模块用于:根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。本专利技术的上述实施例中,获取P个正样本数据和Q个负样本数据,并根据P个正样本数本文档来自技高网...

【技术保护点】
1.一种确定二分类模型的预测效果的方法,其特征在于,所述方法包括:/n获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;/n根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;/n获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;/n针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;/n其中,P、Q、M、R、K均为正整数,i=1,……,M。/n

【技术特征摘要】
1.一种确定二分类模型的预测效果的方法,其特征在于,所述方法包括:
获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;
根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M。


2.根据权利要求1所述的方法,其特征在于,所述根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果,包括:
根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;
根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。


3.根据权利要求1所述的方法,其特征在于,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。


4.根据权利要求1所述的方法,其特征在于,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;
使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预...

【专利技术属性】
技术研发人员:林淼哲方桢张峻滔
申请(专利权)人:上海游昆信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1