一种基于GNN神经网络的生物信息获取方法技术

技术编号:37962163 阅读:7 留言:0更新日期:2023-06-30 09:37
本发明专利技术属于生物信息获取的技术领域,公开了一种基于GNN神经网络的生物信息获取方法,在信息提取方面,通过使用MDL_molfile进行输入,可以涵括原子以及原子键更多的特征;在计算方面,使用精简张量存储分子底物信息,可以用于大规模的计算以及结果存储;在分子结构方面,可以处理更复杂的分子结构,捕捉原子间相互作用,并且可以处理不同大小的分子,在网络训练过程中可以找到它们的差异,有很高的实用价值。价值。价值。

【技术实现步骤摘要】
一种基于GNN神经网络的生物信息获取方法


[0001]本专利技术涉及生物信息获取的
,尤其涉及一种基于GNN神经网络的生物信息获取方法。

技术介绍

[0002]现阶段统计底物生物信息主要有以下三种分子指纹统计方法。而本身它们都具有各自的局限性,不能尽可能的捕捉到所有的分子信息,且三种指纹没有一定的通用性。下面是三种指纹各自的缺点:

ECFP指纹:ECFP指纹是基于分子的连接信息生成的,因此无法准确捕捉到分子的某些重要信息,如电荷分布等等;

RDKit指纹:RDKit指纹是基于化学键以及子结构生成的,因此,如果分子的化学结构非常复杂或者独特,那么RDKit指纹将无法正确表达生物信息。其次,RDKit指纹的复杂度随分子大小增加。在大型生物信息计算模型中,会加大存储以及生物计算的运算量;

MACCS指纹MACCS指纹是一种二进制指纹,只能表示分子中有没有某种结构,却无法表达他们之间的数量或者距离关系。MACCS指纹对于分子的相关特征较少,可能无法表达复杂分子结构。

技术实现思路

[0003]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0004]鉴于上述现有存在的问题,提出了本专利技术。
[0005]因此,本专利技术解决的技术问题是:现有技术存在对于分子本身信息存储的忽略,以及无法处理复杂分子结构的问题。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:一种基于GNN神经网络的生物信息获取方法,包括:对目标生物信息提取特征输入变量;基于所述特征输入变量搭建图神经网络;选取特征参数对所述图神经网络进行训练,实现生物信息的获取。
[0007]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:所述特征输入变量,包括:将获取目标生物信息的MDL Molfile文件中原子特征与化学键特征进行特征提取。
[0008]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:将所述原子特征转化为10维的热编码向量;所述原子特征包括原子数、键数、电荷、氢键数、质量、芳香性、杂交类型、手性。
[0009]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:所述原子化学键有4个特征,且每个原子周边有8个电子,故所述化学键特征维度为32;所述原子化学键4个特征包括键类型、环的一部分、立体构型和芳香性。
[0010]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:基于所述提取特征,为有N个原子的分子底物构建N*N*42维度的图神经网络。
[0011]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:所述图神经网络的搭建包括信息传递和信息读取;所述信息传递中使用D

MPNN使得图神经网络中每条边有两个相反的传播方向,并通过迭代使边和点的信息不断的更新;通过引入激活函数将结果变为非线性结构,所述激活函数表示为:;其中, 为输入变量。
[0012]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:在迭代后的信息末尾加入dropout,表示为:;其中,为掩码, 表示odot为元素乘法运算, p为神经元被随机删除的概率。
[0013]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:所述读取阶段对节点进行评定以及预测目标属性;所述评定过程中选取均方差作为评定标准,所述均方差损失函数表示为:;其中, 为样本总数,为样本的真实值,为的预测值。
[0014]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:所述训练中选取的特征参数包括:batch_size=32D=0.5learning_rate=0.05epochs=30l2_reg_fc=0.01
l2_reg_conv=0.1rho=0.09其中,batch_size为批处理大小,表示每次训练模型时同时处理的样本数;D表示模型中的某个维度或特征的大小,具体含义取决于模型的结构;learning_rate为学习率,控制模型参数在每次迭代中更新的幅度;epochs为迭代次数,表示将整个训练数据集用于训练的次数,每个epoch包含一次前向传播和反向传播的过程;l2_reg_fc为 L2正则化项在全连接层中的系数,L2正则化是一种用于防止过拟合的正则化技术,通过在损失函数中加入模型权重的L2范数平方乘以正则化系数,惩罚权重的大小,促使模型更加简单平滑;l2_reg_conv为L2正则化项在卷积层中的系数,用于防止过拟合的正则化系数,应用于卷积层的权重参数;rho为Adadelta优化算法中的衰减率,用于控制历史梯度的权重。
[0015]作为本专利技术所述的基于GNN神经网络的生物信息获取方法的一种优选方案,其中:通过特征参数的选取,使MSE到达最低值并且使决定系数处于高水平。
[0016]本专利技术的有益效果:本专利技术提供的一种基于GNN神经网络的生物信息获取方法,在信息提取方面,通过使用MDL_molfile进行输入,可以涵括原子以及原子键更多的特征;在计算方面,使用精简张量存储分子底物信息,可以用于大规模的计算以及结果存储;在分子结构方面,可以处理更复杂的分子结构,捕捉原子间相互作用,并且可以处理不同大小的分子,在网络训练过程中可以找到它们的差异,有很高的实用价值。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的整体流程图;图2为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的预处理流程示意图;图3为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的GNN训练示意图;图4为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的训练过程中损失函数走向示意图;图5为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的最终的GNN分子信息张量示意图;图6为本专利技术一个实施例所述的基于GNN神经网络的生物信息获取方法的预测准确率示意图。
具体实施方式
[0018]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而
不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GNN神经网络的生物信息获取方法,其特征在于,包括:对目标生物信息提取特征输入变量;基于所述特征输入变量搭建图神经网络;选取特征参数对所述图神经网络进行训练,实现生物信息的获取。2.如权利要求1所述的基于GNN神经网络的生物信息获取方法,其特征在于:所述特征输入变量,包括:将获取目标生物信息的MDL Molfile文件中原子特征与化学键特征进行特征提取。3.如权利要求2所述的基于GNN神经网络的生物信息获取方法,其特征在于:将所述原子特征转化为10维的热编码向量;所述原子特征包括原子数、键数、电荷、氢键数、质量、芳香性、杂交类型、手性。4.如权利要求3所述的基于GNN神经网络的生物信息获取方法,其特征在于:所述原子化学键有4个特征,且每个原子周边有8个电子,故所述化学键特征维度为32;所述原子化学键4个特征包括键类型、环的一部分、立体构型和芳香性。5.如权利要求4所述的基于GNN神经网络的生物信息获取方法,其特征在于:基于所述提取特征,为有N个原子的分子底物构建N*N*42维度的图神经网络。6.如权利要求5所述的基于GNN神经网络的生物信息获取方法,其特征在于:所述图神经网络的搭建包括信息传递和信息读取;所述信息传递中使用D

MPNN使得图神经网络中每条边有两个相反的传播方向,并通过迭代使边和点的信息不断的更新;通过引入激活函数将结果变为非线性结构,所述激活函数表示为:;其中,为输入变量。7.如权利要求6所述的基于GNN神经网络的生物信息获取方法,其特征在于:在迭代后的信息末尾加入dropout,表示为:;其中,为掩码,表示odot为...

【专利技术属性】
技术研发人员:黄君贤尹涛高健峰徐焕良季呈明陈子欣许文文刘泽民
申请(专利权)人:南京农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1