样本特征确定方法、样本特征确定装置和电子设备制造方法及图纸

技术编号:29676174 阅读:66 留言:0更新日期:2021-08-13 21:58
本申请提供的样本特征确定方法、样本特征确定装置和电子设备,涉及机器学习技术领域。在本申请中,首先,基于样本数据包括的多个数据特征形成特征组合,得到初始特征组合;其次,对初始特征组合进行第一筛选处理,得到初始特征组合对应的第一特征组合;然后,基于数据特征之间的相关性关系和线性判别分析算法,对第一特征组合进行处理,得到第一特征组合对应的第二特征组合;最后,对第二特征组合进行第二筛选处理,得到第二特征组合对应的目标特征组合,用于训练机器学习模型。基于上述方法,可以改善现有技术中在确定用于训练机器学习模型的数据特征时存在确定的数据特征的有效性不佳的问题。

【技术实现步骤摘要】
样本特征确定方法、样本特征确定装置和电子设备
本申请涉及机器学习
,具体而言,涉及一种样本特征确定方法、样本特征确定装置和电子设备。
技术介绍
在机器学习模型的搭建(训练)过程中,一个重要步骤是数据特征选择。其中,特征选择是指结合专业背景知识和技巧,利用算法从已有特征中筛选出一部分特征描述数据。但是,经专利技术人研究发现,基于现有技术确定用于训练机器学习模型的数据特征时,存在确定的数据特征的有效性不佳的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种样本特征确定方法、样本特征确定装置和电子设备,以改善现有技术中在确定用于训练机器学习模型的数据特征时存在确定的数据特征的有效性不佳的问题。为实现上述目的,本申请实施例采用如下技术方案:一种样本特征确定方法,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理;对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合,其中,所述目标特征组合包括的数据特征的数量小于或等于所述第二特征组合包括的数据特征的数量,所述目标特征组合包括的数据特征用于训练机器学习模型,所述机器学习模型用于判断目标业务是否达到所述目标条件。在本申请实施例较佳的选择中,在上述样本特征确定方法中,所述基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合的步骤,包括:计算所述第一特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第一特征组合对应的第一相关性矩阵;针对所述第一特征组合中的每一个数据特征,基于所述第一相关性矩阵中该数据特征与其它的每一个数据特征之间的相关系数和第二预设阈值,确定该数据特征对应的高相关性特征集合;基于所述第一特征组合中每一个数据特征对应的高相关性特征集合,构建所述第一特征组合对应的高相关性特征组合;基于线性判别分析算法对所述高相关性特征组合进行降维处理,得到所述高相关性特征组合对应的降维特征组合;基于所述高相关性特征组合和所述降维特征组合,得到第二特征组合。在本申请实施例较佳的选择中,在上述样本特征确定方法中,所述对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合的步骤,包括:对所述初始特征组合包括的数据特征进行IV值计算,得到所述初始特征组合中每一个数据特征的IV值,其中,所述IV值用于表征对应的数据特征对业务是否达到所述目标条件的预测能力的大小;基于所述初始特征组合中每一个数据特征的IV值和第一预设阈值,对所述初始特征组合中的每一个数据特征进行第一筛选处理,得到所述初始特征组合对应的第一特征组合。在本申请实施例较佳的选择中,在上述样本特征确定方法中,所述对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合的步骤,包括:计算所述第二特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第二特征组合对应的第二相关性矩阵;对所述第二特征组合包括的数据特征进行IV值计算,得到所述第二特征组合中每一个数据特征的IV值;针对所述第二特征组合中的每两个数据特征,基于该两个数据特征在所述第二相关性矩阵中的相关系数是否大于第三预设阈值、该两个数据特征对应的IV值之间的大小关系,对该两个数据特征进行第二筛选处理;基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合。在本申请实施例较佳的选择中,在上述样本特征确定方法中,基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合的步骤,包括:基于进行第二筛选处理筛选出的数据特征对初始树模型进行训练,得到所述初始树模型对应的目标树模型;基于所述目标树模型确定进行第二筛选处理筛选出的每一个数据特征的增益贡献,其中,所述增益贡献为对应的数据特征在树模型中作为分裂节点的信息增益之和与该数据特征的出现频次的比值;基于进行第二筛选处理筛选出的每一个数据特征的增益贡献,确定出多个目标数据特征;基于所述多个目标数据特征构建对应的目标特征组合。在本申请实施例较佳的选择中,在上述样本特征确定方法中,基于进行第二筛选处理筛选出的每一个数据特征的增益贡献,确定出多个目标数据特征的步骤,包括:针对基于进行第二筛选处理筛选出的每一个数据特征,判断该数据特征的增益贡献是否大于第四预设阈值,并在增益贡献大于所述第四预设阈值时,将该数据特征确定为目标数据特征;或者将增益贡献最大的目标数量个数据特征确定为目标数据特征。在本申请实施例较佳的选择中,在上述样本特征确定方法中,所述基于所述多个目标数据特征构建对应的目标特征组合的步骤,包括:基于所述多个目标数据特征对初始树模型进行训练,得到所述初始树模型对应的新的目标树模型;基于所述新的目标树模型确定每一个所述目标数据特征的增益贡献,并基于该增益贡献按照升序顺序对所述多个目标数据特征进行排序;对所述多个目标数据特征进行IV值计算,得到每一个所述目标数据特征的IV值,并基于该IV值得到对应的IV图;按照进行排序的排序结果依次基于所述目标数据特征对应的IV图对所述目标数据特征进行筛选处理,得到预定数量个目标数据特征;基于所述预定数量个目标数据特征构建对应的目标特征组合。在本申请实施例较佳的选择中,在上述样本特征确定方法中,所述按照进行排序的排序结果依次基于所述目标数据特征对应的IV图对所述目标数据特征进行筛选处理,得到预定数量个目标数据特征的步骤,包括:在确定出预定数量个目标数据特征之前,按照进行排序的排序结果依次将每一个所述目标数据特征作为待处理目标数据特征;判断所述待处理目标数据特征对应的IV图中的分布信息是否满足预设条件,并在该分布信息满足该预设条件时,将该待处理目标数据特征确定为所述预定数量个目标数据特征中的一个,直到确定出所述预定数量个目标数据特征。本申请实施例还提供了一种样本特征确定装置,用于训练机器学习模型,所述样本特征确定装置应用于电子设备,所述样本特征确定装置包括:初始特征组合获得模块,用于获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对本文档来自技高网...

【技术保护点】
1.一种样本特征确定方法,其特征在于,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:/n获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;/n对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;/n基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理;/n对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合,其中,所述目标特征组合包括的数据特征的数量小于或等于所述第二特征组合包括的数据特征的数量,所述目标特征组合包括的数据特征用于训练机器学习模型,所述机器学习模型用于判断目标业务是否达到所述目标条件。/n

【技术特征摘要】
1.一种样本特征确定方法,其特征在于,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:
获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;
对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;
基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理;
对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合,其中,所述目标特征组合包括的数据特征的数量小于或等于所述第二特征组合包括的数据特征的数量,所述目标特征组合包括的数据特征用于训练机器学习模型,所述机器学习模型用于判断目标业务是否达到所述目标条件。


2.根据权利要求1所述的样本特征确定方法,其特征在于,所述基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合的步骤,包括:
计算所述第一特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第一特征组合对应的第一相关性矩阵;
针对所述第一特征组合中的每一个数据特征,基于所述第一相关性矩阵中该数据特征与其它的每一个数据特征之间的相关系数和第二预设阈值,确定该数据特征对应的高相关性特征集合;
基于所述第一特征组合中每一个数据特征对应的高相关性特征集合,构建所述第一特征组合对应的高相关性特征组合;
基于线性判别分析算法对所述高相关性特征组合进行降维处理,得到所述高相关性特征组合对应的降维特征组合;
基于所述高相关性特征组合和所述降维特征组合,得到第二特征组合。


3.根据权利要求1或2所述的样本特征确定方法,其特征在于,所述对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合的步骤,包括:
对所述初始特征组合包括的数据特征进行IV值计算,得到所述初始特征组合中每一个数据特征的IV值,其中,所述IV值用于表征对应的数据特征对业务是否达到所述目标条件的预测能力的大小;
基于所述初始特征组合中每一个数据特征的IV值和第一预设阈值,对所述初始特征组合中的每一个数据特征进行第一筛选处理,得到所述初始特征组合对应的第一特征组合。


4.根据权利要求1或2所述的样本特征确定方法,其特征在于,所述对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合的步骤,包括:
计算所述第二特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第二特征组合对应的第二相关性矩阵;
对所述第二特征组合包括的数据特征进行IV值计算,得到所述第二特征组合中每一个数据特征的IV值;
针对所述第二特征组合中的每两个数据特征,基于该两个数据特征在所述第二相关性矩阵中的相关系数是否大于第三预设阈值、该两个数据特征对应的IV值之间的大小关系,对该两个数据特征进行第二筛选处理;
基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合。


5.根据权利要求4所述的样本特征确定方法,其特征在于,所述基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合的步骤,包括:
基于进行第二筛选处理筛选出的数据特征对初始树模型进行训练,得到所述初始树模型对应的目标树模型;
基于所述目标树模型确定...

【专利技术属性】
技术研发人员:顾凌云谢旻旗段湾汪仁杰张涛潘峻陶雨婕
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1