基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法技术

技术编号:32519089 阅读:16 留言:0更新日期:2022-03-02 11:19
本发明专利技术公开了一种基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法,是先搭建RegNet_1d深度学习模型,再使用ERα拮抗剂的m个分子描述符信息来预测其对ERα的生物活性,并以积分梯度法为理论基础进行数据结构优化,将预测结果归因到输入特征中,得到m个变量对生物活性影响的相关性分布,以此筛选合适的分子描述符变量,用于重新构建数据结构来训练预测模型。本发明专利技术使用深度学习网络自动学习表征模型,提高了预测效率,同时优化后的模型预测准确率略有下降但所需测量的数据量大大减少,节约了药物研发的时间和成本。节约了药物研发的时间和成本。节约了药物研发的时间和成本。

【技术实现步骤摘要】
基于RegNet_1d模型和积分梯度法的ER
α
拮抗剂的生物活性预测方法


[0001]本专利技术涉及ERα拮抗剂活性预测及其虚拟筛选领域,特别是一种基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测及其优化方法。

技术介绍

[0002]目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对某个靶标收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构

活性关系(Quantitative Structure

Activity Relationship,QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。现有技术更多的是采用传统建模方法预测,准确率不高;且建模方法大都基于实验范式,依赖人工设计,而全部采用实验测试则成本较高周期太长,不利于药物研发迭代。

技术实现思路

[0003]本专利技术为克服现有技术存在的不足之处,提出了一种基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法,以期能减少测量的数据量的同时提高预测效率,从而节约药物研发的时间和成本。
[0004]为了达到上述专利技术目的,本专利技术采用如下技术方案:
[0005]本专利技术一种基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法的特点包括以下步骤:
[0006]S1:收集一系列作用于靶标ERα的拮抗剂化合物的生物活性数据以及m个分子结构描述符;
[0007]以靶标ERα的拮抗剂化合物的m个分子描述符作为m个自变量,对m个自变量分别进行数据标准化操作后,得到特征数据记为:X=[x1,x2,

,x
i
,

,x
m
],x
i
表示第i个分子描述符的值;以拮抗剂化合物对靶标ERα的生物活性值数据的负对数pIC
50
为因变量,记为Y;将特征数据X和因变量Y组合为数据集并划分为训练集D
train
和验证集D
val

[0008]S2:搭建由输入模块、核心模块和输出模块构成的RegNet_1d预测模型:
[0009]S2.1:所述输入模块依次包括一个卷积层Conv1d、一个池化层Pool1d和批归一化层BatchNorm1d;设置输入数据的通道数为m;
[0010]S2.2:所述核心模块是以RegNet网络架构为基础,并由a个第一模块block1、b个第二模块block2、c个第三模块block3叠加构成,其中,第一模块block1包含一维卷积层Conv1d、一维批量归一化层BatchNorm1d;第二模块block2包含一维卷积层Conv1d、一维批量归一化层BatchNorm1d、激活函数层ReLU;第三模块block3包括Conv1d、BatchNorm1d、ReLU、瓶颈层Bottleneck;
[0011]S2.3:所述输出模块包括自适应池化层AdaptiveAvgPool1d和全连接层;
[0012]S3:训练和选择模型:
[0013]S3.1:初始化学习率为lr、当前迭代次数为epoch、最优决定系数为R2
max
、学习率调整迭代值t=0,设置调整周期阈值为t
max

[0014]S3.2:在第epoch次迭代中将训练集D
train
按照每批次的大小为bs输入到所述RegNet_1d神经网络模型中进行训练,并计算MSE损失L后求解m个通道的梯度,再利用基于学习率lr的Adam优化器优化梯度中的权重参数,从而得到第epoch次训练的模型;
[0015]S3.3:在第epoch次迭代训练后在验证集D
val
上按照每批次大小为bs对第epoch次训练的模型进行验证,计算当前第epoch次训练的模型的决定系数作为评估指标,若则将赋值给R
2max
,并保存当前第epoch次训练的模型的参数,若则将t+1赋值给t后,判断t=t
max
是否成立,若成立,则将学习率lr调整为0.5lr;否则,保持学习率lr;
[0016]S3.4:将epoch+1赋值给epoch后,返回步骤S3.2,直到决定系数不再提高时,停止训练并将最后一次训练的模型作为最优RegNet_1d神经网络模型F;
[0017]S4:基于最优RegNet_1d神经网络模型F,利用Integrated Gradients算法计算m个自变量与因变量Y的相关性分布向量A=[A1,A2,

,A
i
,

,A
m
],其中,A
i
为第i个分子描述符与因变量Y的相关性值;
[0018]S5:剔除相关性分布向量A中相关性为0的自变量,得到n个分子描述符,从而构建优化后的特征数据X

=[x
′1,x
′2,

,x

j
,

,x

n
],x

j
表示优化后的第j个分子描述符的值,将优化后的特征数据X

和因变量Y组合为新的数据集并重新划分为训练集D

train
和验证集D

val

[0019]S6:设置所述RegNet_1d预测模型的输入通道数为n;
[0020]S7:在新训练集D

train
和验证集D

val
上按照步骤S3的过程,得到数据结构优化后的最优预测模型F


[0021]S8:将待测试的靶标ERα的拮抗剂化合物的生物活性数据输入最优预测模型F

中并输出预测结果。
[0022]与已有技术相比,本专利技术有益效果体现在:
[0023]1.本专利技术以不同化合物对ERα的生物活性为因变量、以对应化合物的m个分子描述符信息为自变量创建数据集,搭建RegNet_1d深度学习模型来预测ERα拮抗剂的生物活性;并改进设计了RegNet_1d模型用于ERα拮抗剂的生物活性预测任务中,能到达71%的预测准确率;同时具有深度学习网络自动学习表征的特点,预测效率更高;
[0024]2.本专利技术在设计了预测模型的同时还对其数据结构进行优化,并使用提出梯度积分法(Integrated Gradients)思想,通过表征深度学习模型可解释性的方法,计算模型中自变量特征和因变量的相关性,从而挑选重要的分子结构描述符,优化建模预测过程,从而大大节约了药物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法,其特征在于,包括以下步骤:S1:收集一系列作用于靶标ERα的拮抗剂化合物的生物活性数据以及m个分子结构描述符;以靶标ERα的拮抗剂化合物的m个分子描述符作为m个自变量,对m个自变量分别进行数据标准化操作后,得到特征数据记为:X=[x1,x2,

,x
i
,

,x
m
],x
i
表示第i个分子描述符的值;以拮抗剂化合物对靶标ERα的生物活性值数据的负对数pIC
50
为因变量,记为Y;将特征数据X和因变量Y组合为数据集并划分为训练集D
train
和验证集D
val
;S2:搭建由输入模块、核心模块和输出模块构成的RegNet_1d预测模型:S2.1:所述输入模块依次包括一个卷积层Conv1d、一个池化层Pool1d和批归一化层BatchNorm1d;设置输入数据的通道数为m;S2.2:所述核心模块是以RegNet网络架构为基础,并由a个第一模块block1、b个第二模块block2、c个第三模块block3叠加构成,其中,第一模块block1包含一维卷积层Conv1d、一维批量归一化层BatchNorm1d;第二模块block2包含一维卷积层Conv1d、一维批量归一化层BatchNorm1d、激活函数层ReLU;第三模块block3包括Conv1d、BatchNorm1d、ReLU、瓶颈层Bottleneck;S2.3:所述输出模块包括自适应池化层AdaptiveAvgPool1d和全连接层;S3:训练和选择模型:S3.1:初始化学习率为lr、当前迭代次数为epoch、最优决定系数为R2
max
、学习率调整迭代值t=0,设置调整周期阈值为t
max
;S3.2:在第epoch次迭代中将训练集D
train
按照每批次的大小为bs输入到所述RegNet_1d神经网络模型中进行训练,并计算MSE损失L后求解m个通道的梯度,再利用基于学习率lr的Adam优化器优化梯度中的权重参数,从而得到第epoch次训练的模型;S3.3...

【专利技术属性】
技术研发人员:王玉成冯志宏赵娜娜汪鸣明叶晓东
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1