基于分子结构及基因表达的药物IC50深度学习模型预测方法技术

技术编号:33161420 阅读:69 留言:0更新日期:2022-04-22 14:19
本发明专利技术公开一种基于分子结构及基因表达的药物IC50深度学习模型预测方法,包括:建立预测药物在不同细胞系中的IC50的深度学习模型;基于深度学习模型进行药物在不同细胞系中的IC50的预测。还公开了预测系统、电子设备及计算机可读存储介质,使用语法变异自动编码器编码药物的化学分子式与使用变异自动编码器编码细胞系表达数据,通过神经网络的方法预测药物在不同细胞系中的IC50,可以直接通过药物的分子信息,预测出药物在不同种类癌症细胞系中IC50的值,可以一定程度上减少临床前开发的资金与时间投入。将模型运用在患者中,可以帮助筛选出药物的适用人群,减少不必要的临床实验,进而提高临床实验的成功率。进而提高临床实验的成功率。进而提高临床实验的成功率。

【技术实现步骤摘要】
基于分子结构及基因表达的药物IC50深度学习模型预测方法


[0001]本专利技术涉及医疗信息
,尤其涉及一种基于分子结构及基因表达的药物IC50深度学习模型预测方法、系统、电子设备及计算机可读存储介质。

技术介绍

[0002]据调查,一种新药的研发目前的平均成本为13.59亿美金,平均研发时间为12年,可以看出,研发新药需要大量的资金和时间成本。而对已上市或已经完成了部分研发过程的药物寻找新的适应症是减少研发投入成本的有效方法之一。然而,药物分子作用机制十分复杂,并且在不同细胞尤其是不同的癌症细胞中的作用效果也不尽相同,因此研究药物在不同癌症细胞中的作用通常需要进行耗资巨大、耗时长久和动用大量人力成本的生物实验。现有技术需要通过细胞系实验方法,获取不同细胞系中药物的IC50值(IC50是指细胞数量减少一半时所需药物的浓度。IC50值可以用来衡量药物导致癌细胞凋亡的能力,即导致癌细胞凋亡的能力越强,该数值越低,当然也可以反向说明某种细胞对药物的耐受程度)。在一种癌症细胞系中获取一种药物的IC50值需要多次实验才能得到,而我们目前有数千种癌症细胞系,收集购买这些细胞系都是十分困难的事情。若要得到几百种药物在这些细胞系中的IC50值,更需要进行数十万次的实验,这将耗费大量的人力、物力、财力以及时间的投入。
[0003]随着机器学习尤其是机器学习模型或者深度学习技术的发展,越来越多的科学规律可以通过深度学习的方法获得。首先,采用基本的初级计算方法预测IC50以减少投入,例如自然通讯杂志(Nature Communications)上发表的文章“用于准确预测药物反应填补的深度生成神经网络”中揭示的技术方案,仅有训练集的准确率的评估,且效果有限,只有50.65%的药物的预测IC50与真实药物致死量的相关系数大于0.5。
[0004]此外,目前样本的IC50值药物实验无法直接应用到患者组织样本上,无法准确预估患者对药物的应答情况。因此需要计算的方法,通过患者组织的表达谱,来预测患者对药物的应答,从而筛选出药物的有效人群,增加了预测方案的复杂度。
[0005]因此,可以说现有技术中还没有在药物研制和生物实验方面与深度学习方法进行有效结合的完整的解决方案,以解决准确预测药物分子在不同细胞系中IC50的问题,特别是癌症细胞系中。

技术实现思路

[0006]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案,使用语法变异自动编码器编码药物的化学分子式与使用变异变动编码器编码细胞系表达数据,通过神经网络的方法预测药物在不同细胞系中的IC50。
[0007]本专利技术一方面提供了一种基于分子结构及基因表达的药物IC50深度学习模型预测方法,包括:S1,建立预测药物在不同细胞系中的IC50的深度学习模型;
S2,基于所述深度学习模型进行药物在不同细胞系中的IC50的预测。
[0008]进一步地,所述细胞系为癌症细胞系。
[0009]进一步地,所述S1,建立预测药物在不同细胞系中的IC50的深度学习模型包括:S11,获得建立所述深度学习模型的样本,对样本进行预处理获得样本数据;以及S12,构建所述深度学习模型。
[0010]进一步地,所述S11包括:S111,从细胞系相关数据库中下载细胞系表达谱的数据;同时从药物敏感性基因组学数据库中,下载药物在不同细胞系中的IC50的数值;S112:对所述细胞系表达谱的数据和所述IC50的数值进行数据清理,包括:在细胞系表达谱的数据中,保留所有细胞系中平均表达值大于第一阈值的基因;删除所述IC50的数值所对应的所有药物中无法使用rdkit的药物数据和/或语法变异自动编码器(GVAE)无法读取的药物数据;清理后的所述细胞系表达谱的数据和清理后的所述IC50的数值构成所述深度学习模型的样本数据。
[0011]进一步地,所述第一阈值可选范围为0.5

2,优选为1。
[0012]进一步地,所述S12包括:S121,训练所述深度学习模型,所述训练包括一轮或者多轮,其中每一轮所述训练包括:(1)从所述样本数据中随机选取80%的样本数据作为训练集,20%的样本数据作为测试集,所述训练集与所述测试集用于进行所述深度学习模型的训练与评估;(2)基于所述语法变异自动编码器中的简化分子输入线输入系统以及权重文件对所述药物的化学分子式进行编码,获得56维特征向量以表示所述药物的分子信息;(3)基于所述清理后的所述细胞系表达谱以及变异自动编码器,读取细胞系的表达谱数据,获得用于表征所述细胞系的n维细胞系特征向量,n的范围为50

150;(4)建立所述深度学习模型的基础模型,其中所述56维特征向量以及所述n维细胞系特征向量作为所述基础模型的输入,所述药物的IC50的预测值作为输出,所述基础模型使用2

6层全连接神经网络,优选层数为4层;(5)以余弦相似性或皮尔逊相关系数以及最小均方误差作为目标优化函数,使用Adam优化器作为下降方法,利用所述训练集中的数据训练所述深度学习模型;S122,模型有效性验证,包括:基于所述训练集和所述测试集中的数据验证模型有效性,如果所述训练集中真实IC50与预测药物致死量的皮尔斯相关系数大于第二阈值,且所述测试集中真实IC50与预测药物致死量的皮尔斯相关系数大于第三阈值,则继续步骤S123;S123,基于所述训练和所述模型有效性验证,获得深度学习模型。
[0013]进一步地,所述S122还包括:选择数据库中的基因表达谱与疗效数据,如果模型预测的患者癌细胞IC50值与患者使用特定要素肿瘤缩小比例的斯皮尔曼相关系数大于第四阈值,与患者生存时间的相关系数小于第五阈值,则证明所述深度学习模型有效;和/或选择数据库中的基因表达谱与疗效数据,如果肿瘤没有完全消失的患者中模型预测的IC50值大于肿瘤完全消失的患者中模型预测的IC50值,则证明所述深度学习模型有效。
[0014]本专利技术的第二方面,提供一种基于分子结构及基因表达的药物IC50深度学习模型预测系统,包括:深度学习模型建立模块,用于建立预测药物在不同细胞系中的IC50的深度学习模型;IC50预测模块,用于基于所述深度学习模型进行药物在不同细胞系中的IC50的预测。
[0015]本专利技术的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
[0016]本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
[0017]本专利技术提供的基于分子结构及基因表达的药物IC50深度学习模型预测方法、系统和电子设备,具有如下有益效果:本专利技术使用语法变异自动编码器编码药物的化学分子式与使用变异自动编码器编码细胞系表达数据,通过神经网络的方法预测药物在不同细胞系中的IC50,可以直接通过药物的分子信息,预测出药物在不同种类癌症细胞系中IC50的值,可以一定程度上减少临本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分子结构及基因表达的药物IC50深度学习模型预测方法,其特征在于,包括:S1,建立预测药物在不同细胞系中的IC50的深度学习模型;S2,基于所述深度学习模型进行药物在不同细胞系中的IC50的预测;所述S1,建立预测药物在不同细胞系中的IC50的深度学习模型包括:S11,获得建立所述深度学习模型的样本,对样本进行预处理获得样本数据;以及S12,构建所述深度学习模型;所述S11包括:S111,从细胞系相关数据库中下载细胞系表达谱的数据;同时从药物敏感性基因组学数据库中,下载药物在不同细胞系中的IC50的数值;S112,对所述细胞系表达谱的数据和所述IC50的数值进行数据清理,包括:在细胞系表达谱的数据中,保留所有细胞系中平均表达值大于第一阈值的基因;删除所述IC50的数值所对应的所有药物中无法使用rdkit的药物数据和/或语法变异自动编码器无法读取的药物数据;清理后的所述细胞系表达谱的数据和清理后的所述IC50的数值构成所述深度学习模型的样本数据;所述S12包括:S121,训练所述深度学习模型;S122,模型有效性验证,包括:基于训练集和测试集中的数据验证模型有效性,如果所述训练集中真实IC50与预测药物致死量的皮尔斯相关系数大于第二阈值,且所述测试集中真实IC50与预测药物致死量的皮尔斯相关系数大于第三阈值,则继续步骤S123;S123,基于所述训练和所述模型有效性验证,获得深度学习模型;所述S122还包括:选择数据库中的基因表达谱与疗效数据,如果模型预测的患者IC50值与患者使用特定要素肿瘤缩小比例的斯皮尔曼相关系数大于第四阈值,与患者生存时间的相关系数小于第五阈值,则证明所述深度学习模型有效;和/或选择数据库中的基因表达谱与疗效数据,如果肿瘤没有完全消失的患者中模型预测的IC50值大于肿瘤完全消失的患者中模型预测的IC50值,则证明所述深度学习模型有效。2.根据权利要求1所述的一种基于分子结构及基因表达的药物IC50深度学习模型预测方法,其特征在于,所述细胞系为癌症细胞系。3.根据权利要求1所述的一种基于分子结构及基因表达的药物IC50深度学习模型预测方法,...

【专利技术属性】
技术研发人员:季序我彭鑫鑫余丹阳
申请(专利权)人:普瑞基准生物医药苏州有限公司北京普康瑞仁医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1