【技术实现步骤摘要】
样本特征确定方法、样本特征确定装置和电子设备
本申请涉及机器学习
,具体而言,涉及一种样本特征确定方法、样本特征确定装置和电子设备。
技术介绍
在机器学习模型的搭建(训练)过程中,一个重要步骤是数据特征选择。其中,特征选择是指结合专业背景知识和技巧,利用算法从已有特征中筛选出一部分特征描述数据。但是,经专利技术人研究发现,基于现有技术确定用于训练机器学习模型的数据特征时,存在确定的数据特征的有效性不佳的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种样本特征确定方法、样本特征确定装置和电子设备,以改善现有技术中在确定用于训练机器学习模型的数据特征时存在确定的数据特征的有效性不佳的问题。为实现上述目的,本申请实施例采用如下技术方案:一种样本特征确定方法,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理 ...
【技术保护点】
1.一种样本特征确定方法,其特征在于,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:/n获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;/n对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;/n基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理;/n对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合,其中,所述目标特征组合包括的数据特征的数量小于或等于所述第二特征组合包括的数据特征的数量,所述目标特征组合包括的数据特征用于训练机器学习模型,所述机器学习模型用于判断目标业务是否达到所述目标条件。/n
【技术特征摘要】
1.一种样本特征确定方法,其特征在于,用于训练机器学习模型,所述样本特征确定方法应用于电子设备,所述样本特征确定方法包括:
获取具有二分类标签信息的样本数据,并基于所述样本数据包括的多个数据特征形成特征组合,得到初始特征组合,其中,所述二分类标签信息用于表征所述样本数据对应的业务是否达到目标条件;
对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合,其中,所述第一特征组合包括的数据特征的数量小于或等于所述初始特征组合包括的数据特征的数量;
基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合,其中,所述线性判别分析算法用于对数据特征进行降维处理;
对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合,其中,所述目标特征组合包括的数据特征的数量小于或等于所述第二特征组合包括的数据特征的数量,所述目标特征组合包括的数据特征用于训练机器学习模型,所述机器学习模型用于判断目标业务是否达到所述目标条件。
2.根据权利要求1所述的样本特征确定方法,其特征在于,所述基于所述数据特征之间的相关性关系和线性判别分析算法,对所述第一特征组合进行处理,得到所述第一特征组合对应的第二特征组合的步骤,包括:
计算所述第一特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第一特征组合对应的第一相关性矩阵;
针对所述第一特征组合中的每一个数据特征,基于所述第一相关性矩阵中该数据特征与其它的每一个数据特征之间的相关系数和第二预设阈值,确定该数据特征对应的高相关性特征集合;
基于所述第一特征组合中每一个数据特征对应的高相关性特征集合,构建所述第一特征组合对应的高相关性特征组合;
基于线性判别分析算法对所述高相关性特征组合进行降维处理,得到所述高相关性特征组合对应的降维特征组合;
基于所述高相关性特征组合和所述降维特征组合,得到第二特征组合。
3.根据权利要求1或2所述的样本特征确定方法,其特征在于,所述对所述初始特征组合进行第一筛选处理,得到所述初始特征组合对应的第一特征组合的步骤,包括:
对所述初始特征组合包括的数据特征进行IV值计算,得到所述初始特征组合中每一个数据特征的IV值,其中,所述IV值用于表征对应的数据特征对业务是否达到所述目标条件的预测能力的大小;
基于所述初始特征组合中每一个数据特征的IV值和第一预设阈值,对所述初始特征组合中的每一个数据特征进行第一筛选处理,得到所述初始特征组合对应的第一特征组合。
4.根据权利要求1或2所述的样本特征确定方法,其特征在于,所述对所述第二特征组合进行第二筛选处理,得到所述第二特征组合对应的目标特征组合的步骤,包括:
计算所述第二特征组合中各数据特征之间的相关系数,并基于该相关系数得到所述第二特征组合对应的第二相关性矩阵;
对所述第二特征组合包括的数据特征进行IV值计算,得到所述第二特征组合中每一个数据特征的IV值;
针对所述第二特征组合中的每两个数据特征,基于该两个数据特征在所述第二相关性矩阵中的相关系数是否大于第三预设阈值、该两个数据特征对应的IV值之间的大小关系,对该两个数据特征进行第二筛选处理;
基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合。
5.根据权利要求4所述的样本特征确定方法,其特征在于,所述基于进行第二筛选处理筛选出的数据特征构建对应的目标特征组合的步骤,包括:
基于进行第二筛选处理筛选出的数据特征对初始树模型进行训练,得到所述初始树模型对应的目标树模型;
基于所述目标树模型确定...
【专利技术属性】
技术研发人员:顾凌云,谢旻旗,段湾,汪仁杰,张涛,潘峻,陶雨婕,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。