一种特征筛选方法、装置、存储介质及电子设备制造方法及图纸

技术编号：34639898 阅读：10 留言：0更新日期：2022-08-24 15:15

本发明专利技术公开了一种特征筛选方法、装置、存储介质及电子设备。方法包括：获取原始临床数据和原始组学数据，分别将原始临床数据和原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；对于临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于筛选影响参数从所述各数据特征中筛选候选数据特征；基于候选数据特征确定特征子集，并基于各特征子集进行以分类为处理目标的机器学习模型训练；基于各机器学习模型的训练过程数据确定处理目标的对应的目标数据特征。通过对临床数据和组学数据进行特征筛选，提高了特征筛选的全面性。对临床数据和组学数据进行双重筛选，从不同维度进行筛选，提高了特征筛选的准确性。特征筛选的准确性。特征筛选的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种特征筛选方法、装置、存储介质及电子设备

[0001]本专利技术涉及数据处理
，尤其涉及一种特征筛选方法、装置、存储介质及电子设备。

技术介绍

[0002]目前质谱技术正在蓬勃发展，并广泛应用于临床多领域的检测项目，包括内分泌、心血管、肿瘤、和药物治疗等等。质谱技术是实现精准诊断和精准医疗必不可少的工具。基于质谱技术，可以获得临床样本的蛋白质组学，代谢组学，脂质组学等多种组学大数据。相应的，如何对质谱技术带来的多组学数据进行合理有效的分析是研究的关键点和热点之一。
[0003]在实现本专利技术的过程中，发现现有技术中至少存在以下技术问题：目前，部分机构或者研究者开发出对部分组学数据进行分析的系统，但该系统分析对象具有局限性，同时存在使用复杂、分析不全面的问题。

技术实现思路

[0004]本专利技术提供了一种特征筛选方法、装置、存储介质及电子设备，以解决提高特征筛选的准确性和全面性。
[0005]根据本专利技术的一方面，提供了一种特征筛选方法，包括：
[0006]获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；
[0007]对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征；
[0008]基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练；
[0009]基于各机器...

【技术保护点】

【技术特征摘要】
1.一种特征筛选方法，其特征在于，包括：获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征；基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练；基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。2.根据权利要求1所述的方法，其特征在于，所述将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据，包括：对于所述原始临床数据中的任一原始临床数据特征，确定所述原始临床数据特征的数据类型，根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，并基于确定的数据转换规则对所述原始临床数据特征对应的数据值进行数据转换；对于所述原始组学数据中的任一原始组学数据特征，对各所述原始组学数据特征对应的数据值进行预设方式的数据转换。3.根据权利要求2所述的方法，其特征在于，所述数据类型包括分类型和数值型；所述确定所述原始临床数据特征的数据类型，包括：对所述原始临床数据特征的原始数据值进行去重处理，得到去重后的数据值；在去重后的各数据值同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为分类型，以及在去重后的各数据值不同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为数值型；和/或，所述根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，包括：原始临床数据特征的数据类型和数据分布特征，在预先设置的数据转换规则库中进行匹配，根据匹配结果确定原始临床数据特征的数据转换规则；其中，所述数据转换规则库中预先设置多个数据转换规则，以及各数据转换规则对应的数据类型和数据分布特征。4.根据权利要求1所述的方法，其特征在于，所述数据特征的筛选影响参数包括如下的一项或多项：数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数；其中，所述数据特征与处理目标的关联性的确定方式包括：根据所述数据特征的数据类型，调用对应的关联性处理规则，得到所述数据特征与处理目标的关联性；所述数据特征预测处理目标的重要性的确定方法包括：将数据特征和标签特征输入至预先训练的随机森林模型中，得到所述随机森林模型输出的数据特征预测处理目标的重要性；所述数据特征预测处理目标的预测系数的确定方法包括：将数据特征和标签特征输入至预先训练的逻辑回归模型，得到所述逻辑回归模型输出的数据特征预测处理目标的预测系数。
5.根据权利要求4所述的方法，其特征在于，所述数据特征与处理目标的关联性包括第一关联性和第二关联性；所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于标签为二分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，则将所述数据特征为候选数据特征；对于标签为多分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，或者，所述数据特征的第二关联性不为零，则将所述数据特征为候选数据特征；和/或，所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于任一数据特征，在其...

【专利技术属性】
技术研发人员：成晓亮，张磊，周岳，张伟，郑可嘉，
申请(专利权)人：南京品生医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人