特征选择方法、应用程序预测方法及装置制造方法及图纸

技术编号:34828525 阅读:11 留言:0更新日期:2022-09-08 07:20
本申请提供了特征选择方法、应用程序预测方法及装置,该特征选择方法获取每个初始特征与原始标签之间的MIC值,以及,对原始标签进行随机打乱得到错误标签,并获取每个初始特征与各个错误标签之间的MIC"值。获得同一初始特征对应的MIC值及各个MIC"值之间的偏离度,并基于各个初始特征的偏离度选取目标特征。该方案减少了特征数量,加快了模型训练速度,进而降低了模型训练过程的功耗。而且,与通过树模型获得特征重要性的方案相比,该方案直接基于特征与类别标签之间的MIC值来衡量特征的重要性,无需针对每次随机打乱操作训练相应的树模型,缩短了特征选择过程的耗时,因此提高了效率。进而减少了APP预测模型的复杂度,以及减少APP预测模型占用的系统内存。APP预测模型占用的系统内存。APP预测模型占用的系统内存。

【技术实现步骤摘要】
特征选择方法、应用程序预测方法及装置


[0001]本申请涉及机器学习
,尤其涉及特征选择方法、应用程序预测方法及装置。

技术介绍

[0002]特征工程是机器学习中的一个重要过程,其目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征选择是特征工程中的一个重要环节,其目标是寻找最优特征子集。通过特征选择剔除不相关或冗余的特征,从而减少特征数量、提高模型精确度、减少模型运行时间。
[0003]例如,基于机器学习的应用程序(Application,APP)预测模型中,特征工程生成的特征数量多,而且包括冗余或不相关的特征,导致APP预测模型运行时间长,占用电子设备的内存空间大,且运行功耗大。而且,包括不相关或冗余的特征,导致模型精确度低。

技术实现思路

[0004]有鉴于此,本申请提供了特征选择方法、应用程序预测方法及装置,以解决上述的问题,其公开的技术方案如下:
[0005]第一方面,本申请提供了一种特征选择方法,应用于电子设备,该方法包括:提取样本集的初始特征;获取每个初始特征与样本集的初始标签之间的第一最大信息系数,第一最大信息系数表征初始特征在初始标签下的重要程度;对初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,其中,N为大于1的正整数;获取每个初始特征与任一个错误标签之间的第二最大信息系数,第二最大信息系数表征初始特征在错误标签下的重要程度;获得同一初始特征对应的第一最大信息系数与各个第二最大信息系数之间的偏离度,偏离度表征每个初始特征分别在初始标签下与各个错误标签下的重要程度的差异;基于每个初始特征对应的偏离度,确定出目标特征。可见,与通过树模型获得特征重要性的方案相比,该方案直接基于特征与标签之间的最大信息系数来衡量特征的重要性,无需针对每次随机打乱操作训练相匹配的树模型,因此缩短了特征选择过程的耗时,提高了效率。而且,利用该方案减少模型的复杂度,进而减少模型占用的系统内存。
[0006]在一种可能的实现方式中,对初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:分别对同一类别的不同样本对应的标签,进行N次随机打乱,得到N个打乱后的错误标签。可见,该方案只对同一类别的不同样本的标签进行随机打乱,从而避免随机打乱后的标签与初始标签(即正确标签)相差太远而无法确定出无用特征的情况发生,因此,该方案能够有效减少特征的数量,降低了模型的复杂度,同时提高了选出的特征的准确率,从而提高了模型的准确率。
[0007]在另一种可能的实现方式中,获得同一个初始特征对应的第一最大信息系数与各个第二最大信息系数之间的偏离度,包括:对于任一初始特征,获取任一初始特征对应的各个第二最大信息系数的中位数;获得任一初始特征对应的第一最大信息系数与第二最大信
息系数的中位数之间的偏离度。该方案选取的各个第二最大信息系数的中位数更能代表各个第二最大信息系数的数据中心,而且,能够避免受异常值的影响,因此,提高了计算得到的偏离度的准确率,从而提高了筛选出的目标特征的准确率。
[0008]在又一种可能的实现方式中,所述获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度,包括:基于如下公式计算得到所述任一初始特征对应的偏离度:
[0009][0010]其中,score
i
表示第i个初始特征对应的偏离度,MIC
i
表示第i个初始特征与原始标签之间的第一最大信息系数,MIC
ij
"表示第i个初始特征与第j个错误标签之间的第二最大信息系数,j为正整数,且1≤j≤N,N为所述错误标签的总数量,γ是一个极小值。可见,该方案直接利用第一最大信息系数和第二最大信息系数的中位数,计算得到偏离度,提高了偏离度的准确率,从而提高了筛选出的目标特征的准确率。
[0011]在另一种可能的实现方式中,获得任一初始特征对应的第一最大信息系数与第二最大信息系数的中位数之间的偏离度,还包括:利用正则化算法将任一初始特征对应的偏离度对应的值域调整至预设范围内。可见,该方案计算得到每个初始特征对应的偏离度后,利用正则化将偏离度的值域调整至预设范围内,如[0,1],从而避免不同特征对应的偏离度的值域不同,导致的无法准确确定偏离度阈值的情况发生,因此提高了选取的目标特征的准确率。
[0012]在又一种可能的实现方式中,所述基于每个所述初始特征对应的所述偏离度,确定出目标特征,包括:选取所述偏离度大于预设阈值的所述初始特征确定为所述目标特征。
[0013]在另一种可能的实现方式中,应用于基于排序算法模型的应用程序预测模型,每个样本包括一个查询APP和一个候选APP,且每一条查询APP使用记录对应一个包括M个样本的样本子集,所述M个样本中的查询APP相同、候选APP互不相同;所述对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:针对属于同一类别的至少两个不同的所述查询APP,将各个所述查询APP对应的样本子集的标签之间进行N次随机打乱,得到所述样本集对应的N个打乱后的错误标签。
[0014]在又一种可能的实现方式中,包括:从所述样本集中的所述查询APP对应的信息中提取得到第一类初始特征,以及,从所述样本集中的所述候选APP对应的信息中提取得到第二类初始特征;获得每个第一类初始特征与所述样本集的初始标签之间的第一最大信息系数;获得每个第二类初始特征与所述样本集的初始标签之间的第一最大信息系数;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签;获取所述每个第一类初始特征与任一所述错误标签之间的第二最大信息系数;获得同一个所述第一类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第一类初始特征对应的所述偏离度,确定出第一类目标特征;获取所述每个第二类初始特征与任一个所述错误标签之间的第二最大信息系数;获得同一个所述第二类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第二类初始特征对应的所述偏离度,确定出第二类目标特征。
[0015]第二方面,本申请还提供了一种应用程序预测方法,应用于电子设备,该方法包
括:获取历史APP序列,所述历史APP序列包括所述电子设备在历史时间段内的APP使用记录信息;基于所述历史APP序列构造样本集;提取所述样本集的初始特征;获取每个所述初始特征与所述样本集的初始标签之间的第一最大信息系数,所述第一最大信息系数表征所述初始特征在所述初始标签下的重要程度;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,其中,N为大于1的正整数;获取每个所述初始特征与任一个所述错误标签之间的第二最大信息系数,所述第二最大信息系数表征所述初始特征在所述错误标签下的重要程度;获得同一所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度,所述偏离度表征每个所述初始特征分别在所述初始标签下与各个所述错误标签下的重要程度的差异;基于每个所述初始特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征选择方法,其特征在于,应用于电子设备,所述方法包括:提取样本集的初始特征;获取每个所述初始特征与所述样本集的初始标签之间的第一最大信息系数,所述第一最大信息系数表征所述初始特征在所述初始标签下的重要程度;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,其中,N为大于1的正整数;获取每个所述初始特征与任一个所述错误标签之间的第二最大信息系数,所述第二最大信息系数表征所述初始特征在所述错误标签下的重要程度;获得同一所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度,所述偏离度表征每个所述初始特征分别在所述初始标签下与各个所述错误标签下的重要程度的差异;基于每个所述初始特征对应的所述偏离度,确定出目标特征。2.根据权利要求1所述的方法,其特征在于,所述对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:分别对同一类别的不同样本对应的标签,进行N次随机打乱,得到N个打乱后的错误标签。3.根据权利要求1或2所述的方法,其特征在于,所述获得同一个所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度,包括:对于任一初始特征,获取所述任一初始特征对应的各个所述第二最大信息系数的中位数;获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度。4.根据权利要求3所述的方法,其特征在于,所述获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度,包括:基于如下公式计算得到所述任一初始特征对应的偏离度:其中,score
i
表示第i个初始特征对应的偏离度,MIC
i
表示第i个初始特征与原始标签之间的第一最大信息系数,MIC
ij
"表示第i个初始特征与第j个错误标签之间的第二最大信息系数,j为正整数,且1≤j≤N,N为所述错误标签的总数量,γ是一个极小值。5.根据权利要求4所述的方法,其特征在于,所述获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中位数之间的偏离度,还包括:利用正则化算法将所述任一初始特征对应的所述偏离度对应的值域调整至预设范围内。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于每个所述初始特征对应的所述偏离度,确定出目标特征,包括:选取所述偏离度大于预设阈值的所述初始特征确定为所述目标特征。7.根据权利要求1所述的方法,其特征在于,应用于基于排序算法模型的应用程序预测
模型,每个样本包括一个查询APP和一个候选APP,且每一条查询APP使用记录对应一个包括M个样本的样本子集,所述M个样本中的查询APP相同、候选APP互不相同;所述对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签,包括:针对属于同一类别的至少两个不同的所述查询APP,将各个所述查询APP对应的样本子集的标签之间进行N次随机打乱,得到所述样本集对应的N个打乱后的错误标签。8.根据权利要求7所述的方法,其特征在于,包括:从所述样本集中的所述查询APP对应的信息中提取得到第一类初始特征,以及,从所述样本集中的所述候选APP对应的信息中提取得到第二类初始特征;获得每个第一类初始特征与所述样本集的初始标签之间的第一最大信息系数;获得每个第二类初始特征与所述样本集的初始标签之间的第一最大信息系数;对所述初始标签分别进行N次随机打乱,得到N个打乱后的错误标签;获取所述每个第一类初始特征与任一所述错误标签之间的第二最大信息系数;获得同一个所述第一类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第一类初始特征对应的所述偏离度,确定出第一类目标特征;获取所述每个第二类初始特征与任一个所述错误标签之间的第二最大信息系数;获得同一个所述第二类初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数之间的偏离度;基于每个所述第二类初始特征对应的所述偏离度,确定出第二类目标特征。9.一种应用程序预测方法,其特征在于,应用于电子设备,所述方法包括...

【专利技术属性】
技术研发人员:赵杰陈贵龙
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1