【技术实现步骤摘要】
特征选择方法、应用程序预测方法及装置
[0001]本申请涉及机器学习
,尤其涉及特征选择方法、应用程序预测方法及装置。
技术介绍
[0002]特征工程是机器学习中的一个重要过程,其目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征选择是特征工程中的一个重要环节,其目标是寻找最优特征子集。通过特征选择剔除不相关或冗余的特征,从而减少特征数量、提高模型精确度、减少模型运行时间。
[0003]例如,基于机器学习的应用程序(Application,APP)预测模型中,特征工程生成的特征数量多,而且包括冗余或不相关的特征,导致APP预测模型运行时间长,占用电子设备的内存空间大,且运行功耗大。而且,包括不相关或冗余的特征,导致模型精确度低。
技术实现思路
[0004]有鉴于此,本申请提供了特征选择方法、应用程序预测方法及装置,以解决上述的问题,其公开的技术方案如下:
[0005]第一方面,本申请提供了一种特征选择方法,应用于电子设备,该方法包括:提取样本集的初始特征;获取每个初始特征与样本集的初始标签之间的第一最大信息系数,第一最大信息系数表征初始特征在初始标签下的重要程度;对初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,其中,N为大于1的正整数;获取每个初始特征与任一个错误标签之间的第二最大信息系数,第二最大信息系数表征初始特征在错误标签下的重要程度;获得同一初始特征对应的第一最大信息系数与各个第二最大信息系数之间的偏离度,偏离度表征每个初始特征分别在初始标签下与各个错 ...
【技术保护点】
【技术特征摘要】
1.一种特征选择方法,其特征在于,应用于电子设备,所述方法包括:提取样本集的初始特征;获取每个所述初始特征与所述样本集的初始标签之间的第一最大信息系数,所述第一最大信息系数表征所述初始特征在所述初始标签下的重要程度;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,其中,N为大于1的正整数;获取每个所述初始特征与任一个所述错误标签之间的第二最大信息系数,所述第二最大信息系数表征所述初始特征在所述错误标签下的重要程度;获得同一所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度,所述偏离度表征每个所述初始特征分别在所述初始标签下与各个所述错误标签下的重要程度的差异;基于每个所述初始特征对应的所述偏离度,确定出目标特征。2.根据权利要求1所述的方法,其特征在于,所述对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:分别对同一类别的不同样本对应的标签,进行N次随机打乱,得到N个打乱后的错误标签。3.根据权利要求1或2所述的方法,其特征在于,所述获得同一个所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度,包括:对于任一初始特征,获取所述任一初始特征对应的各个所述第二最大信息系数的中位数;获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度。4.根据权利要求3所述的方法,其特征在于,所述获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度,包括:基于如下公式计算得到所述任一初始特征对应的偏离度:其中,score
i
表示第i个初始特征对应的偏离度,MIC
i
表示第i个初始特征与原始标签之间的第一最大信息系数,MIC
ij
"表示第i个初始特征与第j个错误标签之间的第二最大信息系数,j为正整数,且1≤j≤N,N为所述错误标签的总数量,γ是一个极小值。5.根据权利要求4所述的方法,其特征在于,所述获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度,还包括:利用正则化算法将所述任一初始特征对应的所述偏离度对应的值域调整至预设范围内。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于每个所述初始特征对应的所述偏离度,确定出目标特征,包括:选取所述偏离度大于预设阈值的所述初始特征确定为所述目标特征。7.根据权利要求1所述的方法,其特征在于,应用于基于排序算法模型的应用程序预测
模型,每个样本包括一个查询APP和一个候选APP,且每一条查询APP使用记录对应一个包括M个样本的样本子集,所述M个样本中的查询APP相同、候选APP互不相同;所述对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:针对属于同一类别的至少两个不同的所述查询APP,将各个所述查询APP对应的样本子集的标签之间进行N次随机打乱,得到所述样本集对应的N个打乱后的错误标签。8.根据权利要求7所述的方法,其特征在于,包括:从所述样本集中的所述查询APP对应的信息中提取得到第一类初始特征,以及,从所述样本集中的所述候选APP对应的信息中提取得到第二类初始特征;获得每个第一类初始特征与所述样本集的初始标签之间的第一最大信息系数;获得每个第二类初始特征与所述样本集的初始标签之间的第一最大信息系数;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签;获取所述每个第一类初始特征与任一所述错误标签之间的第二最大信息系数;获得同一个所述第一类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第一类初始特征对应的所述偏离度,确定出第一类目标特征;获取所述每个第二类初始特征与任一个所述错误标签之间的第二最大信息系数;获得同一个所述第二类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第二类初始特征对应的所述偏离度,确定出第二类目标特征。9.一种应用程序预测方法,其特征在于,应用于电子设备,所述方法包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。