一种特征筛选方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34639898 阅读:10 留言:0更新日期:2022-08-24 15:15
本发明专利技术公开了一种特征筛选方法、装置、存储介质及电子设备。方法包括:获取原始临床数据和原始组学数据,分别将原始临床数据和原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据;对于临床数据和组学数据中的各数据特征,分别确定各数据特征的筛选影响参数,并基于筛选影响参数从所述各数据特征中筛选候选数据特征;基于候选数据特征确定特征子集,并基于各特征子集进行以分类为处理目标的机器学习模型训练;基于各机器学习模型的训练过程数据确定处理目标的对应的目标数据特征。通过对临床数据和组学数据进行特征筛选,提高了特征筛选的全面性。对临床数据和组学数据进行双重筛选,从不同维度进行筛选,提高了特征筛选的准确性。特征筛选的准确性。特征筛选的准确性。

【技术实现步骤摘要】
一种特征筛选方法、装置、存储介质及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种特征筛选方法、装置、存储介质及电子设备。

技术介绍

[0002]目前质谱技术正在蓬勃发展,并广泛应用于临床多领域的检测项目,包括内分泌、心血管、肿瘤、和药物治疗等等。质谱技术是实现精准诊断和精准医疗必不可少的工具。基于质谱技术,可以获得临床样本的蛋白质组学,代谢组学,脂质组学等多种组学大数据。相应的,如何对质谱技术带来的多组学数据进行合理有效的分析是研究的关键点和热点之一。
[0003]在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:目前,部分机构或者研究者开发出对部分组学数据进行分析的系统,但该系统分析对象具有局限性,同时存在使用复杂、分析不全面的问题。

技术实现思路

[0004]本专利技术提供了一种特征筛选方法、装置、存储介质及电子设备,以解决提高特征筛选的准确性和全面性。
[0005]根据本专利技术的一方面,提供了一种特征筛选方法,包括:
[0006]获取原始临床数据和原始组学数据,分别将所述原始临床数据和所述原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据;
[0007]对于所述临床数据和组学数据中的各数据特征,分别确定各数据特征的筛选影响参数,并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征;
[0008]基于所述候选数据特征确定特征子集,并基于各特征子集进行处理目标的机器学习模型训练;
[0009]基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。
[0010]根据本专利技术的另一方面,提供了一种特征筛选装置,包括:
[0011]数据转换模块,用于获取原始临床数据和原始组学数据,分别将所述原始临床数据和所述原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据;
[0012]候选特征筛选模块,用于对于所述临床数据和组学数据中的各数据特征,分别确定各数据特征的筛选影响参数,并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征;
[0013]模型训练模块,用于基于所述候选数据特征确定特征子集,并基于各特征子集进行处理目标的机器学习模型训练;
[0014]目标数据特征确定模块,用于基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。
[0015]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的特征筛选方法。
[0019]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的特征筛选方法。
[0020]本实施例的技术方案,通过在原始临床数据和原始组学数据中筛选目标数据特征,提高了筛选出的目标数据特征的全面性。同时,对原始临床数据和原始组学数据分别基于不同的转化方式进行数据转换,得到满足筛选条件的临床数据和组学数据,便于对得到的临床数据和组学数据进行特征筛选,解决了临床数据的数据项多样化、数据内容多样化的问题。进一步的,对满足筛选条件的临床数据和组学数据进行双重筛选,从不同维度进行筛选,提高了特征筛选的准确性。
[0021]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术实施例提供的一种特征筛选方法的流程示意图;
[0024]图2是本专利技术实施例提供的一种特征筛选方法的流程图;
[0025]图3是本专利技术实施例提供的一种特征筛选方法的流程图;
[0026]图4是本专利技术实施例提供的一种特征筛选方法的流程图;
[0027]图5是本专利技术实施例提供的一种特征筛选装置的结构示意图;
[0028]图6是实现本专利技术实施例的一种电子设备的结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]图1是本专利技术实施例提供的一种特征筛选方法的流程示意图,本实施例可适用于在大量数据特征中筛选用于预测处理目标的数据特征的情况,该方法可以由特征筛选装置来执行,该特征筛选装置可以采用硬件和/或软件的形式实现,该特征筛选装置可配置于诸如计算机、服务器等的电子设备中。如图1所示,该方法包括:
[0032]S110、获取原始临床数据和原始组学数据,分别将所述原始临床数据和所述原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据。
[0033]S120、对于所述临床数据和组学数据中的各数据特征,分别确定各数据特征的筛选影响参数,并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征。
[0034]S130、基于所述候选数据特征确定特征子集,并基于各特征子集进行处理目标的机器学习模型训练。
[0035]S140、基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。
[0036]其中,原始临床数据可以是通过数据采集设备采集得到,或者可以是历史采集数据,示例性的,原始临床数据包括但不限于血压、心率、呼吸次数等。原始组学数据可以是通过质谱技术得到的,例如原始组学数据包括但不限于蛋白质组学、代谢组学、脂质组学。需要说明的是,原始临床数据和原始组学数据为通过采集对象本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征筛选方法,其特征在于,包括:获取原始临床数据和原始组学数据,分别将所述原始临床数据和所述原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据;对于所述临床数据和组学数据中的各数据特征,分别确定各数据特征的筛选影响参数,并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征;基于所述候选数据特征确定特征子集,并基于各特征子集进行处理目标的机器学习模型训练;基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。2.根据权利要求1所述的方法,其特征在于,所述将所述原始临床数据和所述原始组学数据进行数据转换,得到用于特征筛选的临床数据和组学数据,包括:对于所述原始临床数据中的任一原始临床数据特征,确定所述原始临床数据特征的数据类型,根据原始临床数据特征的数据类型和数据分布特征,确定数据转换规则,并基于确定的数据转换规则对所述原始临床数据特征对应的数据值进行数据转换;对于所述原始组学数据中的任一原始组学数据特征,对各所述原始组学数据特征对应的数据值进行预设方式的数据转换。3.根据权利要求2所述的方法,其特征在于,所述数据类型包括分类型和数值型;所述确定所述原始临床数据特征的数据类型,包括:对所述原始临床数据特征的原始数据值进行去重处理,得到去重后的数据值;在去重后的各数据值同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下,确定所述原始临床数据特征的数据类型为分类型,以及在去重后的各数据值不同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下,确定所述原始临床数据特征的数据类型为数值型;和/或,所述根据原始临床数据特征的数据类型和数据分布特征,确定数据转换规则,包括:原始临床数据特征的数据类型和数据分布特征,在预先设置的数据转换规则库中进行匹配,根据匹配结果确定原始临床数据特征的数据转换规则;其中,所述数据转换规则库中预先设置多个数据转换规则,以及各数据转换规则对应的数据类型和数据分布特征。4.根据权利要求1所述的方法,其特征在于,所述数据特征的筛选影响参数包括如下的一项或多项:数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数;其中,所述数据特征与处理目标的关联性的确定方式包括:根据所述数据特征的数据类型,调用对应的关联性处理规则,得到所述数据特征与处理目标的关联性;所述数据特征预测处理目标的重要性的确定方法包括:将数据特征和标签特征输入至预先训练的随机森林模型中,得到所述随机森林模型输出的数据特征预测处理目标的重要性;所述数据特征预测处理目标的预测系数的确定方法包括:将数据特征和标签特征输入至预先训练的逻辑回归模型,得到所述逻辑回归模型输出的数据特征预测处理目标的预测系数。
5.根据权利要求4所述的方法,其特征在于,所述数据特征与处理目标的关联性包括第一关联性和第二关联性;所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征,包括:对于标签为二分类的数据特征,若所述数据特征的第一关联性小于预设关联阈值,则将所述数据特征为候选数据特征;对于标签为多分类的数据特征,若所述数据特征的第一关联性小于预设关联阈值,或者,所述数据特征的第二关联性不为零,则将所述数据特征为候选数据特征;和/或,所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征,包括:对于任一数据特征,在其...

【专利技术属性】
技术研发人员:成晓亮张磊周岳张伟郑可嘉
申请(专利权)人:南京品生医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1