当前位置: 首页 > 专利查询>福州大学专利>正文

深度学习结合模式生物斑马鱼的化学物质安全性评估方法技术

技术编号:38555033 阅读:9 留言:0更新日期:2023-08-22 20:59
本发明专利技术提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法,包括以下步骤;步骤S1、收集已知的化合物毒性数据信息形成数据集,划分为多个化合物种类和多个毒性种类,并标注有无毒性;步骤S2、转换数据集中化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU

【技术实现步骤摘要】
深度学习结合模式生物斑马鱼的化学物质安全性评估方法


[0001]本专利技术涉及人工智能以及生物信息,毒理学和计算机辅助药物设计
,尤其是深度学习结合模式生物斑马鱼的化学物质安全性评估方法。

技术介绍

[0002]在现代社会中,人们无可避免地需要接触众多人工制造的化合物,这些化学物质可能存在于药品、杀虫剂、食品添加剂、工业化合物等多种化合物中。然而,在这些化合物中有很多没有进行毒理学评估,这可能极大地威胁人们的生命安全。因此,大批量地评估这些化合物的安全性能够在很大程度上预防这些化合物可能产生的危害。检测化合物对人体危害的策略目前主要有两种:一种是实验鉴定,另一种是使用人工智能技术进行数据挖掘和智能预测。前者主要专注于生物学和临床的实验来确定化合物对人的危害,但是这种鉴定方式存在样本获取难度大,实验耗材、时间成本高昂、检测范围狭隘、实验难以批量进行等问题。而人工智能方法具有成本小,速度快,同时处理数据量大等优点,使用人工智能方法进行化合物安全性检测是解决上述问题的优质方案。深度学习是机器学习算法中的一类,因其强大的预测能力和特征捕捉能力得到广泛的应用。相比于其它机器学习方法(如逻辑回归,随机森林等),深度学习更能高效并且自动提取化合物分子的特征(如功能基团等)。由于化合物的所引起的毒性往往和其化学结构上某些基团有关,例如甲醛的致癌性是由于其羰基可以与DNA结合并导致DNA损伤;对二甲苯比间二甲苯更具毒性,因为它的苯环上的氢原子可以被卤素或烷基取代,这些取代基会影响其代谢和排泄。通过深度学习算法捕捉化合物分子结构中的毒性结构不仅大大降低了化合物安全性检测的成本,而且为大批量,大范围地检测化合物毒性提供可靠方案。
[0003]除此之外,深度学习的广泛应用体现在针对不同的学科领域都具备对应的先进的算法,如卷积神经网络应用于图像处理领域,长短期记忆网络应用于自然语言处理领域。对于图像处理领域,卷积神经网络算法也在不断的进行优化,特别是在处理不规则的图结构(如分子结构,社交网络等)时,也提出了针对不规则图的卷积算法以实现更好的预测性能。
[0004]分子图(Molecular Graph)能够直接表示化合物的分子结构,它通过节点和边的方式表示分子中的原子和它们之间的化学键。在分子图中,每个原子被表示为一个节点,而原子之间的化学键则通过边连接起来。通过获得分子的拓扑信息,如分子的环结构、分支情况和孤立原子等,分子图能够准确地描述分子的结构。由于化合物的结构可以被理解成图的结构,因此研究其化学结构和性质的关系特别适合用图神经网络进行处理,可以提升其预测性能。斑马鱼与人类的基因相似性高达87%,适用于作为体内实验样本预测各类化学物质对人体的影响。通过预测化合物对斑马鱼的毒性,可以很好地筛选出存在安全性隐患的化合物,为日常生活的安全性添加保障。本专利技术正是利用图卷积网络以及化合物化学结构来实现对化合物安全性的评估。

技术实现思路

[0005]本专利技术提出深度学习结合模式生物斑马鱼的化学物质安全性评估方法,通过预测化合物对斑马鱼的毒性,可以很好地筛选出存在安全性隐患的化合物,为日常生活的安全性添加保障。
[0006]本专利技术采用以下技术方案。
[0007]深度学习结合模式生物斑马鱼的化学物质安全性评估方法,所述方法以GRU

GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性,并以此评估化合物的安全性;所述方法包括以下步骤;
[0008]步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集,根据化合物来源将化合物划分为多个化合物种类,把毒性数据根据毒性种类划分为多个毒性数据集,并标注每个数据集中各化合物有无毒性;
[0009]步骤S2、转换数据集的化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU

GCN网络模型的输入;
[0010]步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi

GRU

Att,输出全局特征的Readout函数和全连接层,构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU

GCN;
[0011]步骤S4、将步骤S2得到的分子图输入到GRU

GCN网络中,经迭代训练获得GRU

GCN网络模型的权重参数;
[0012]步骤S5、使用步骤S4训练好的GRU

GCN模型,输入需要预测的化合物的分子图,待模型提取到化合物的结构特征后,通过决策函数输出预测结果,判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。
[0013]所述步骤S1中,数据集的数据为对斑马鱼具有毒性的化合物数据,包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息;
[0014]化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类;所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性;所述标签为每个数据集中的每个化合物针对斑马鱼的毒性,有毒的被标记为1,无毒的标记为0。
[0015]所述步骤S2中,化合物的SMILES分子结构数据为计算机可解码的分子结构形式,包括原子拓扑排列信息、化学键连接方式;
[0016]步骤S2中,利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象,再对分子对象进行拓扑结构的提取以提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。
[0017]步骤S3在构建模型过程中,使用用于提取每个原子特征的图卷积网络GCN,随后采用具有注意力机制的双向门控循环单元Bi

GRU

Att来确定分子图中每个节点的感受野;在池化层使用Readout函数输出分子图的全局特征,最后使用全连接层作为最终的决策模块。
[0018]所述步骤S1中,数据集随机分为训练样本、验证样本和测试样本三类;在步骤S4中的GRU

GCN网络模型训练中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理GPU进行模型推理,在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性;
[0019]预处理好的测试样本输入GRU

GCN网络对网络性能进行测试;模型优化的目标函数为二分类交叉熵Binary cross entropy,其定义为:
[0020][0021]其中y是二元标签0或者1,p(y)是输出属于y标签的概率,Loss表示损失函数;
[0022]所述GRU

GCN网络模型的权重更新采用梯度下降,以公式表述为
[0023][0024]其中η本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述方法以GRU

GCN网络模型学习分子图的特征来预测化合物对斑马鱼的毒性,并以此评估化合物的安全性;所述方法包括以下步骤;步骤S1、从公开文献或数据库中收集已知的化合物毒性数据信息形成数据集,根据化合物来源将化合物划分为多个化合物种类,把毒性数据根据毒性种类划分为多个毒性数据集,并标注每个数据集中各化合物有无毒性;步骤S2、转换数据集的化合物的SMILES分子结构数据,得到化合物的分子图,作为GRU

GCN网络模型的输入;步骤S3、利用GCN网络的图卷积层、具有注意力机制的双向门控循环单元Bi

GRU

Att,输出全局特征的Readout函数和全连接层,构建并训练带有注意力机制的双向门控循环单元的图卷积神经深度网络GRU

GCN;步骤S4、将步骤S2得到的分子图输入到GRU

GCN网络中,经迭代训练获得GRU

GCN网络模型的权重参数;步骤S5、使用步骤S4训练好的GRU

GCN模型,输入需要预测的化合物的分子图,待模型提取到化合物的结构特征后,通过决策函数输出预测结果,判断化合物是否具有与步骤S1中化合物种类、毒性种类对应的毒性。2.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S1中,数据集的数据为对斑马鱼具有毒性的化合物数据,包括化合物名称、化合物SMILES分子线性输入规范、PubChem ID、心脏水肿毒性标签、脊柱畸形毒性标签、心脏毒性标签、卵黄囊毒性标签、神经毒性标签以及参考文献信息;化合物种类包括药物、农药、食品添加剂、工业化合物和其他种类;所述毒性种类数据集包括心脏水肿毒性、脊柱畸形毒性、心脏毒性、卵黄囊毒性、神经毒性;所述标签为每个数据集中的每个化合物针对斑马鱼的毒性,有毒的被标记为1,无毒的标记为0。3.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S2中,化合物的SMILES分子结构数据为计算机可解码的分子结构形式,包括原子拓扑排列信息、化学键连接方式;步骤S2中,利用Python中的分子处理库RDKit工具包将SMILES转化为分子对象,再对分子对象进行拓扑结构的提取以提取分子节点和边的信息,其中节点表示分子中的原子,边表示连接原子的化学键,构建分子图的邻接矩阵作为模型的输入。4.根据权利要求1所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:步骤S3在构建模型过程中,使用用于提取每个原子特征的图卷积网络GCN,随后采用具有注意力机制的双向门控循环单元Bi

GRU

Att来确定分子图中每个节点的感受野;在池化层使用Readout函数输出分子图的全局特征,最后使用全连接层作为最终的决策模块。5.根据权利要求4所述的深度学习结合模式生物斑马鱼的化学物质安全性评估方法,其特征在于:所述步骤S1中,数据集随机分为训练样本、验证样本和测试样本三类;在步骤S4中的GRU

GCN网络模型训练中,使用预处理好的训练样本作为输入进行有监督的模型训练,通过反向传播更新权重,通过图形处理GPU进行模型...

【专利技术属性】
技术研发人员:翁祖铨叶昭庭钟意苏嘉怡
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1