一种用于药敏预测模型样本构建的方法、装置及设备制造方法及图纸

技术编号:37327338 阅读:16 留言:0更新日期:2023-04-21 23:05
本申请提供了一种用于药敏预测模型样本构建的方法、装置及设备。其方法包括:获取细胞的基因表达数据及其药敏数据;基于细胞的基因表达数据,获得该细胞在基因集数据库的每个基因集上的得分;将每个基因集上的得分进行归一化处理,获得该细胞的第一特征数据,并基于该第一特征数据,获得该细胞的第二特征数据;将该第一特征数据和第二特征数据合集处理,得到该细胞的第三特征数据,并将该细胞和其对应的第三特征数据、药敏数据作为样本数据。可将基于细胞原始的基因表达数据转化为具有生物学意义的基因集得分,并进行数学处理,得到非单一的特征数据,使得包括此特征数据的样本可体现药物的不同的作用机理的关联性。现药物的不同的作用机理的关联性。现药物的不同的作用机理的关联性。

【技术实现步骤摘要】
一种用于药敏预测模型样本构建的方法、装置及设备


[0001]本申请涉及机器学习
,尤其涉及一种用于药敏预测模型样本构建的技术。

技术介绍

[0002]随着人工智能的不断发展,机器学习模型被应用到各个领域。在医学基础临床领域,已有各种基于机器学习模型的预测模型,比如,用于预测药物敏感性的药敏预测模型。
[0003]现有基于机器学习模型的药敏预测,通常使用PCA(Principal Component Analysis,主成分分析)分析方法,直接采用基因表达数据或人为选择相关数据作为预测特征的样本,输入基于预先选择的单一机器学习模型训练后得到药敏预测模型,将大量算力集中于模型超参数的选取,获得药敏预测数据。由于使用了单一数学逻辑、相同特征来进行所有药物的敏感性预测,预测准确性不高。
[0004]而且现有基于机器学习模型的药敏预测模型往往是选择单一、套用模拟人脑的机器学习模型、或者主观选择一个机器学习模型,没有考虑到贴合实际问题,而且将大量的算力用于模型超参数的选取,容易导致过拟合情况。由于超参数的选取需要大量重复训练,最终获得一个可解释性差的黑盒模型,而在最终获得药敏预测模型的过程中会丢弃多数训练后效果不好的模型,造成训练资源的浪费。

技术实现思路

[0005]本申请的目的是提供一种用于药敏预测模型样本构建的方法、装置及设备,以将基于该样本训练得到的药敏预测模型用于药敏预测,至少部分解决现有技术中基于单一机器学习模型的药敏预测模型的预测准确性不高的技术问题。
[0006]根据本申请的一个方面,提供了一种用于药敏预测模型样本构建的方法,其中,所述方法包括:
[0007]获取细胞的基因表达数据及其药敏数据;
[0008]基于所述细胞的基因表达数据,获得所述细胞在基因集数据库的每个基因集上的得分;
[0009]将所述每个基因集上的得分进行归一化处理,获得所述细胞的第一特征数据,并基于所述第一特征数据,获得所述细胞的第二特征数据;
[0010]将所述第一特征数据和所述第二特征数据合集处理,得到所述细胞的第三特征数据,并将所述细胞和其对应的第三特征数据、药敏数据作为样本数据,以构建药敏预测模型的样本。
[0011]可选地,其中,在获得所述细胞在基因集数据库的每个基因集上的得分前,若细胞在基因集数据库的某个基因集上的某个或者某些基因无对应基因表达数据,则补全所述基因的基因表达数据。
[0012]可选地,其中,所述基于所述细胞的基因表达数据,获得所述细胞在基因集数据库
的每个基因集上的得分包括:
[0013]对所述细胞的基因表达数据,采用单样本基因集富集分析方法,获得所述细胞在基因集数据库的每个基因集上的得分。
[0014]可选地,其中,所述基于所述第一特征数据,获得所述细胞的第二特征数据包括:
[0015]对所述第一特征数据进行数学处理,获得所述细胞的第二特征数据,其中,所述数学处理包括以下至少一项:
[0016]平方运算;
[0017]交叉运算;
[0018]立方运算;
[0019]自然对数运算;
[0020]box

cox变换。
[0021]可选地,所述一种用于药敏预测模型样本构建的方法还包括:
[0022]获得若干不同细胞的样本数据,以构建第一样本数据集,并将所述第一样本数据集划分成第一训练样本数据集和第一测试样本数据集;
[0023]基于所述第一训练样本数据集,训练若干预设机器学习模型,当所述预设机器模型的MSE误差满足预设阈值时,基于所述第一测试样本数据集进行测试,若MSE误差满足预设阈值,完成每个预设机器学习模型的训练;
[0024]将完成训练的每个预设机器学习模型进行融合,得到第一药敏预测模型。
[0025]可选地,其中,所述将第一样本数据集划分成第一训练样本数据集和第一测试样本数据集包括:
[0026]采用KS检验,将第一样本数据集划分成第一训练样本数据集和第一测试样本数据集。
[0027]可选地,其中,所述基于所述第一训练样本数据集,训练若干预设机器学习模型包括:
[0028]采用交叉检验和bootstrap采样,从所述第一训练样本数据集中获取训练样本数据,训练若干预设机器学习模型;
[0029]重复训练预设次数。
[0030]可选地,其中,所述将完成训练的每个预设机器学习模型进行融合,得到第一药敏预测模型包括:
[0031]采用贪心前向选择法,将完成预训练的每个预设机器学习模型进行融合,得到第一药敏预测模型。
[0032]可选地,所述一种用于药敏预测模型样本构建的方法还包括:
[0033]置换所述第一样本数据集中不同样本的第三特征数据的一个特征的特征值,得到第二样本数据集;
[0034]集进行预测,并根据预测结果准确度的变化,得到所述特征的重要性得分;
[0035]遍历所述第一样本数据集中样本的第三特征数据的每一个特征,重复上述步骤,得到每个特征的重要性得分;
[0036]基于所述第一样本数据集,选择预设数量个重要性得分最高的特征,构建第三样本数据集,其中,所述第三样本数据集中每个样本数据包括细胞和其对应的第三特征数据
中对应所述预设数量个重要性得分最高的特征数据。
[0037]可选地,所述一种用于药敏预测模型样本构建的方法还包括:
[0038]将所述第三样本数据集划分成第三训练样本数据集和第三测试样本数据集;
[0039]基于所述第三训练样本数据集,训练所述若干预设机器学习模型,当所述预设机器模型的MSE误差满足预设阈值时,基于所述第三测试样本数据集进行测试,若MSE误差满足预设阈值,完成每个预设机器学习模型的训练;
[0040]将完成训练的每个预设机器学习模型进行融合,得到第二药敏预测模型。
[0041]可选地,所述一种用于药敏预测模型样本构建的方法还包括:
[0042]获取待测细胞的基因表达数据,并基于所述待测细胞的基因表达数据,获得所述待测细胞在基因集数据库的每个基因集上的得分;
[0043]将所述每个基因集上的得分进行归一化处理,获得所述待测细胞的第一特征数据,并基于所述第一特征数据,获得所述待测细胞的第二特征数据;
[0044]将所述第一特征数据和所述第二特征数据合集处理,得到所述待测细胞的第三特征数据;
[0045]将所述待测细胞的第三特征数据输入所述第二药敏预测模型,以预测所述待测细胞的药敏数据。
[0046]根据本申请的另一个方面,提供了一种用于药敏预测模型样本构建的装置,其中,所述装置包括:
[0047]第一模块,用于获取细胞的基因表达数据及其药敏数据;
[0048]第二模块,用于基于所述细胞的基因表达数据,获得所述细胞在基因集数据库的每个基因集上的得分;
[0049]第三模块,用于将所述每个基因集上的得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于药敏预测模型样本构建的方法,其特征在于,所述方法包括:获取细胞的基因表达数据及其药敏数据;基于所述细胞的基因表达数据,获得所述细胞在基因集数据库的每个基因集上的得分;将所述每个基因集上的得分进行归一化处理,获得所述细胞的第一特征数据,并基于所述第一特征数据,获得所述细胞的第二特征数据;将所述第一特征数据和所述第二特征数据合集处理,得到所述细胞的第三特征数据,并将所述细胞和其对应的第三特征数据、药敏数据作为样本数据,以构建药敏预测模型的样本。2.根据权利要求1所述的方法,其特征在于,在获得所述细胞在基因集数据库的每个基因集上的得分前,若细胞在基因集数据库的某个基因集上的某个或者某些基因无对应基因表达数据,则补全所述基因的基因表达数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述细胞的基因表达数据,获得所述细胞在基因集数据库的每个基因集上的得分包括:对所述细胞的基因表达数据,采用单样本基因集富集分析方法,获得所述细胞在基因集数据库的每个基因集上的得分。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征数据,获得所述细胞的第二特征数据包括:对所述第一特征数据进行数学处理,获得所述细胞的第二特征数据,其中,所述数学处理包括以下至少一项:平方运算;交叉运算;立方运算;自然对数运算;box

cox变换。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获得若干不同细胞的样本数据,以构建第一样本数据集,并将所述第一样本数据集划分成第一训练样本数据集和第一测试样本数据集;基于所述第一训练样本数据集,训练若干预设机器学习模型,当所述预设机器模型的MSE误差满足预设阈值时,基于所述第一测试样本数据集进行测试,若MSE误差满足预设阈值,完成每个预设机器学习模型的训练;将完成训练的每个预设机器学习模型进行融合,得到第一药敏预测模型。6.根据权利要求5所述的方法,其特征在于,所述将第一样本数据集划分成第一训练样本数据集和第一测试样本数据集包括:采用KS检验,将第一样本数据集划分成第一训练样本数据集和第一测试样本数据集。7.根据权利要求5所述的方法,其特征在于,所述基于所述第一训练样本数据集,训练若干预设机器学习模型包括:采用交叉检验和bootstrap采样,从所述第一训练样本数据集中获取训练样本数据,训练若干预设机器学习模型;
重复训练预设次数。8.根据权利要求5所述的方法,其特征在于,所述将完成训练的每个预设机器学习模型进行融合,得到第一药敏预测模型包括:采用贪心前向选择法,将完成预训练的每个预设机器学习模型进行融合,得到第一药敏预测模型。9.根据权利要求5所述的方法,其特征在于,所述方法还包括:置换所述第一样本数据集中不同样本的第三特征数据的一个特征的特征值,得到第二样本数据集;采用所述第一药敏预测模型对所述第一样本数据集和所述第二样本数据集进行预测,并根据预测结果准确度的变化,得到所述特征的重要性得分;遍历所述第一样本数据集中样本的第三特征数据的每一个特征,重复上述步骤,得到每个特征的重要性得分;基于所述第一样本数据集,选择预设数量个重要性得分最高的特征,构建第三样本数据集,其中,所述第三样本数据集中每个样本数据包括细胞和其对应的第三特征数据中对应所述预设数量个重要性得分最高的特征数据。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:将所述第三样本数据集划分成第三训练样本数据集和第三测试样本数据集;基于所述第三训练样本数据集,训练所述若干预设机器学习模型,当所述预设机器模型的MSE误差满足预设阈值时,基于所述第三测试样本数据集进行测试,若MSE误差满足预设阈值,完成每个预设机器学习模型的训练;将完成训练的每个预设机器学习模型进行融合,得到第二药敏预测模型。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:获取待测细胞的基因表达数据,并基于所述待测细胞的基因表达数据,获...

【专利技术属性】
技术研发人员:姜山汤忞汤德平
申请(专利权)人:赛箔上海智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1