System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及特征工程,特别是涉及一种特征选择方法及装置。
技术介绍
1、“大数据”时代的数据获取技术快速发展。数据的样本数量和维度不断增加,其中不乏大量缺乏注释的匿名特征,而如何处理和分析这种特征,并通过剔除不相关或冗余的特征,减少特征个数,达到提高模型精确度,减少运行时间,是亟待解决的问题。
2、现阶段特征选择主要使用过滤式(filter)和包裹式(wrapper)方法。filter方法如est évez等人提出了一种基于互信息的过滤式特征选择滤波方法,其评价标准独立于特定的学习算法,所筛选出的特征质量不稳定,准确度较低,在匿名特征中的表现尤其明显。而 wrapper方法如李占山等人提出的基于lightgbm的特征选择算法,运行时间较长,不适合处理高维数据集。
3、针对上述方法存在的不足,结合了filter方法和wrapper方法的优点的嵌入式特征选择方法应运而生。嵌入式特征选择方法是指将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
4、嵌入式特征选择方法虽然能够解决匿名特征问题,但如何保证特征选择的准确性,特别是在数据量大、特征维度高的场景下如何保证特征选择的准确性,则是目前亟需解决的一个问题。
5、因此,仍需要一种能够保证特征选择准确性的特征选择方法。
技术实现思路
1、本公开要解决的一个技术问题是提供一种能够保证特征选择准确性的特征选择方案。
2、根据本
3、可选地,权重计算模块为门控残差网络,门控残差网络包括线性单元、门控单元以及跳连单元,线性单元包括多层线性层,用于对由多个共有特征拼接而成的输入进行特征提取,多层线性层中最后一层线性层中的神经元的数量等于多个共有特征的数量,门控单元用将最后一层线性层中各个神经元的输出映射到0到1之间,并将映射结果和与映射结果对应的神经元的输出相乘,跳连单元用于将由多个共有特征拼接而成的输入与门控单元的输出相加,或者跳连单元用于将由多个共有特征拼接而成的输入输入至一层线性层后得到的输出与门控单元的输出相加。
4、可选地,门控残差网络还包括正则化单元和归一化单元,正则化单元用于对相加结果进行正则化处理,归一化单元用于将正则化处理结果进行归一化,以得到各个共有特征的权重,权重用于表征每个共有特征相对其他共有特征的重要性。
5、可选地,利用多条样本数据训练机器学习模型,包括:将多条样本数据划分为训练样本集和验证样本集;使用训练样本集对机器学习模型进行多轮训练;使用验证样本集对每轮训练完成后得到的机器学习模型进行验证。
6、可选地,使用验证样本集对每轮训练完成后得到的机器学习模型进行验证,包括:针对每轮训练完成后得到的机器学习模型,将验证样本集中的每条验证样本输入该机器学习模型,得到该机器学习模型输出的验证样本的预测值;基于所有验证样本的预测值与验证样本的真实标记结果之间的差异,确定每轮训练完成后得到的机器学习模型的验证误差。
7、可选地,基于训练完成后权重计算模块输出的各个共有特征的权重,选择特征,包括:基于验证误差最小的一轮训练对应的机器学习模型中权重计算模块所输出的各个共有特征的权重,选择特征;或者基于验证误差由小到大的顺序对每轮训练得到的机器学习模型进行排名,选取排名靠前的第一数量个机器学习模型,并基于选取的机器学习模型中权重计算模块所输出的各个共有特征的权重选择特征。
8、可选地,样本数据为数据集中的数据,数据集包括多条数据,每条数据包括多个字段值,样本数据的每个特征对应一条数据中的一个字段值。
9、可选地,该方法还包括:基于选择的特征对数据集进行筛选,得到新的数据集。
10、根据本公开的第二个方面,提供了一种特征选择装置,该装置包括:训练模块,用于利用多条样本数据训练机器学习模型;多条样本数据具有多个共有特征,共有特征是指每条样本数据均具有的特征,对于每条样本数据,训练模块将该条样本数据的多个共有特征拼接成输入,输入至机器学习模型,机器学习模型包括权重计算模块、加权模块以及预测模块,由多个共有特征拼接而成的输入分别输入至权重计算模块和加权模块,权重计算模块用于计算所输入的各个共有特征的权重,权重计算模块的输出用于输入至加权模块,加权模块用于将各个共有特征和与该共有特征对应的权重进行加权,并将各个共有特征与权重加权的结果拼接为预测模块的输入,输入至预测模块,预测模块用于进行目标预测;选择模块,用于基于训练完成后权重计算模块输出的各个共有特征的权重,选择特征。
11、可选地,权重计算模块为门控残差网络,门控残差网络包括线性单元、门控单元以及跳连单元,线性单元包括多层线性层,用于对由多个共有特征拼接而成的输入进行特征提取,多层线性层中最后一层线性层中的神经元的数量等于多个共有特征的数量,门控单元用将最后一层线性层中各个神经元的输出映射到0到1之间,并将映射结果和与映射结果对应的神经元的输出相乘,跳连单元用于将由多个共有特征拼接而成的输入与门控单元的输出相加,或者跳连单元用于将由多个共有特征拼接而成的输入输入至一层线性层后得到的输出与门控单元的输出相加。
12、可选地,门控残差网络还包括正则化单元和归一化单元,正则化单元用于对相加结果进行正则化处理,归一化单元用于将正则化处理结果进行归一化,以得到各个共有特征的权重,权重用于表征每个共有特征相对其他共有特征的重要性。
13、可选地,训练模块将多条样本数据划分为训练样本集和验证样本集,使用训练样本集对机器学习模型进行多轮训练,并使用验证样本集对每轮训练完成后得到的机器学习模型进行验证。
14、可选地,训练模块针对每轮训练完成后得到的机器学习模型,将验证样本集中的每条验证样本输入该机器学习模型,得到该机器学习模型输出的验证样本的预测值,基于所有验证样本的预测值与验证样本的真实标记结果之间的差异,确定每轮训练完成后得到的机器学习模型的验证误差。
15、可选地,选择模块基于验证误差最小的一轮训练对应的机器学习模型中权重计算模块所输出的各个共有特征的权重,选择特征,或者,选择模块基于验证误差由小到大的顺序对每轮训本文档来自技高网...
【技术保护点】
1.一种特征选择方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述权重计算模块为门控残差网络,所述门控残差网络包括线性单元、门控单元以及跳连单元,
3.根据权利要求2所述的方法,其中,
4.根据权利要求1所述的方法,其中,利用多条样本数据训练机器学习模型,包括:
5.根据权利要求4所述的方法,其中,使用所述验证样本集对每轮训练完成后得到的机器学习模型进行验证,包括:
6.根据权利要求5所述的方法,其中,基于训练完成后所述权重计算模块输出的各个共有特征的权重,选择特征,包括:
7.根据权利要求1至6中任何一项所述的方法,其中,
8.一种特征选择装置,其中,所述装置包括:
9.一种计算设备,包括:
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至7中任何一项所述的方法。
【技术特征摘要】
1.一种特征选择方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述权重计算模块为门控残差网络,所述门控残差网络包括线性单元、门控单元以及跳连单元,
3.根据权利要求2所述的方法,其中,
4.根据权利要求1所述的方法,其中,利用多条样本数据训练机器学习模型,包括:
5.根据权利要求4所述的方法,其中,使用所述验证样本集对每轮训练完成后得到的机器学习模型进行验证,包括:
...【专利技术属性】
技术研发人员:戴亨玮,蔡恒兴,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。