特征选择方法和装置、多媒体和网络数据降维方法和设备制造方法及图纸

技术编号:25951135 阅读:20 留言:0更新日期:2020-10-17 03:43
本公开涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。该特征选择方法包括:获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;确定目标值最小的情况下的尺度因子向量;从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。

【技术实现步骤摘要】
特征选择方法和装置、多媒体和网络数据降维方法和设备
本公开涉及特征选择领域,特别涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。
技术介绍
随着现代社会数字技术的迅速发展,数据的形态变得越来越复杂同时数据的维度也越来越高,因此人们迫切需要高效稳定的FS(FeatureSelection,特征选择)方法从海量的数据中剔除冗余无效的干扰特征而将真正有价值的特征保留下来。特征选择算法旨在根据特定任务中定义的相关度、偏好或者重要性对相关数据特的子集进行排序和选择。由于特征选择可以减少用于训练机器学习模型的特征数量,因此其可以缓解维度灾难,加速学习过程,提高模型性能并且可以增强对数据的理解。研究人员已经在各种应用条件和多个实际场景中对特征选择算法进行研究,目前特征选择已经成为机器学习和数据挖掘的重要组成部分。
技术实现思路
专利技术人通过研究发现:特征选择方法可以分为3类:包裹式(Wrapper)、过滤式(Filter)和嵌入式(Embedding)。图1为三类特征选择方法的示意图。包裹式特征选择(如图1(a))方法使用相关任务目标(分类和回归等)作为衡量标准对特征子集进行评价。过滤式特征选择(如图1(b))方法一般使用数据本身所具有的一些特性如互信息、信息增益和相关性对每个特征进行评分。嵌入式特征选择(如图1(c))方法将特征选择和机器学习过程进行融合,在目标函数优化过程中利用得到不同特征的权重系数进行评分。在实际应用中由于包裹式特征选择算法通过最终的机器学习任务对特征进行评估,以选择最适合的特征子集,因此包裹式特征选择在性能优于过滤式特征选择,但是需要对模型进行反复迭代训练,所以计算开销较大。过滤式特征选择算法直接使用数据本身具有的统计信息对特征进行评估,与最终的目标任务无关。与包裹式和过滤式特征选择算法不同,嵌入式特征选择算法与最终的机器学习任务紧密耦合。其利用l1或者l2,1等惩罚项对需要学习的投影矩阵W进行约束得到特征的相应评分,但是使用这种惩罚项得到的特征重要性缺乏可解释性,并且无法找到同时具有全局性和稀疏性的投影矩阵最优解。鉴于以上技术问题中的至少一项,本公开提供了一种特征选择方法和装置、多媒体和网络数据降维方法和设备,可以利用尺度因子对特征重要性进行评估。根据本公开的一个方面,提供一种特征选择方法,包括:获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;确定目标值最小的情况下的尺度因子向量;从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。在本公开的一些实施例中,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;将目标值函数的第一项和第二项的和作为目标值函数。在本公开的一些实施例中,所述确定目标值最小的情况下的尺度因子向量包括:对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。在本公开的一些实施例中,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:将最小二乘回归项作为第二目标值函数的第一项;将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;将第二目标值函数的第一项和第二项的和作为第二目标值函数。在本公开的一些实施例中,所述交替优化回归系数矩阵和偏置向量两个变量包括:设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。在本公开的一些实施例中,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:将尺度因子向量中的所有尺度因子从大到小进行排序;选择前k个尺度因子对应的特征作为目标特征。根据本公开的另一方面,提供一种多媒体数据降维处理方法,包括:获取多媒体数据的原始数据矩阵;采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;根据所述目标特征对多媒体数据的原始数据进行降维处理。根据本公开的另一方面,提供一种网络数据降维处理方法,包括:获取网络数据的原始数据矩阵;采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;根据所述目标特征对网络数据的原始数据进行降维处理。根据本公开的另一方面,提供一种特征选择装置,包括:数据获取模块,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;目标函数确定模块,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;尺度因子确定模块,用于确定目标值最小的情况下的尺度因子向量;特征选择模块,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。在本公开的一些实施例中,所述特征选择装置用于执行实现如上述任一实施例所述的特征选择方法的操作。根据本公开的另一方面,提供一种特征选择装置,其特征在于,包括:存储器,用于存储指令;处理器,用于执行所述指令,使得所述特征选择装置执行实现如上述任一实施例所述的特征选择方法的操作。根据本公开的另一方面,提供一种多媒体数据降维处理设备,包括:多媒体数据矩阵获取装置,用于获取多媒体数据的原始数据矩阵;如上述任一实施例所述的特征选择装置,用于采用确定原始数据矩阵的目标特征;多媒体数据降维处理装置,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。根据本公开的另一方面,提供一种网络数据降维处理设备,包括:网络数据矩阵获取装置,用于获取网络数据的原始数据矩阵;如上述任一实施例所述的特征选择装置,用于确定原始数据矩阵的目标特征;网络数据降维处理装置,用于根据所述目标特征对网络数据的原始数据进行降维处理。根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的特征选择方法。本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例本文档来自技高网...

【技术保护点】
1.一种特征选择方法,其特征在于,包括:/n获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;/n根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;/n确定目标值最小的情况下的尺度因子向量;/n从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。/n

【技术特征摘要】
1.一种特征选择方法,其特征在于,包括:
获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
确定目标值最小的情况下的尺度因子向量;
从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。


2.根据权利要求1所述的特征选择方法,其特征在于,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:
确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;
将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;
将目标值函数的第一项和第二项的和作为目标值函数。


3.根据权利要求1或2所述的特征选择方法,其特征在于,所述确定目标值最小的情况下的尺度因子向量包括:
对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;
交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;
将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。


4.根据权利要求3所述的特征选择方法,其特征在于,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:
将最小二乘回归项作为第二目标值函数的第一项;
将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;
将第二目标值函数的第一项和第二项的和作为第二目标值函数。


5.根据权利要求3所述的特征选择方法,其特征在于,所述交替优化回归系数矩阵和偏置向量两个变量包括:
设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;
设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。


6.根据权利要求1或2所述的特征选择方法,其特征在于,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:
将尺度因子向量中的所有尺度因子从大到小进行排序;

【专利技术属性】
技术研发人员:祖辰
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1