一种基于GNN神经网络的生物信息获取方法技术

技术编号：37962163 阅读：24 留言：0更新日期：2023-06-30 09:37

本发明专利技术属于生物信息获取的技术领域，公开了一种基于GNN神经网络的生物信息获取方法，在信息提取方面，通过使用MDL_molfile进行输入，可以涵括原子以及原子键更多的特征；在计算方面，使用精简张量存储分子底物信息，可以用于大规模的计算以及结果存储；在分子结构方面，可以处理更复杂的分子结构，捕捉原子间相互作用，并且可以处理不同大小的分子，在网络训练过程中可以找到它们的差异，有很高的实用价值。价值。价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GNN神经网络的生物信息获取方法

[0001]本专利技术涉及生物信息获取的
，尤其涉及一种基于GNN神经网络的生物信息获取方法。

技术介绍

[0002]现阶段统计底物生物信息主要有以下三种分子指纹统计方法。而本身它们都具有各自的局限性，不能尽可能的捕捉到所有的分子信息，且三种指纹没有一定的通用性。下面是三种指纹各自的缺点：
①
ECFP指纹：ECFP指纹是基于分子的连接信息生成的，因此无法准确捕捉到分子的某些重要信息，如电荷分布等等；
②
RDKit指纹：RDKit指纹是基于化学键以及子结构生成的，因此，如果分子的化学结构非常复杂或者独特，那么RDKit指纹将无法正确表达生物信息。其次，RDKit指纹的复杂度随分子大小增加。在大型生物信息计算模型中，会加大存储以及生物计算的运算量；
③
MACCS指纹MACCS指纹是一种二进制指纹，只能表示分子中有没有某种结构，却无法表达他们之间的数量或者距离关系。MACCS指纹对于分子的相关特征较少，可能无法表达复杂分子结构。

技术实现思路

[0003]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。
[0004]鉴于上述现有存在的问题，提出了本专利技术。
[0005]因此，本专利技术解决的技术问题是...

【技术保护点】

【技术特征摘要】
1.一种基于GNN神经网络的生物信息获取方法，其特征在于，包括：对目标生物信息提取特征输入变量；基于所述特征输入变量搭建图神经网络；选取特征参数对所述图神经网络进行训练，实现生物信息的获取。2.如权利要求1所述的基于GNN神经网络的生物信息获取方法，其特征在于：所述特征输入变量，包括：将获取目标生物信息的MDL Molfile文件中原子特征与化学键特征进行特征提取。3.如权利要求2所述的基于GNN神经网络的生物信息获取方法，其特征在于：将所述原子特征转化为10维的热编码向量；所述原子特征包括原子数、键数、电荷、氢键数、质量、芳香性、杂交类型、手性。4.如权利要求3所述的基于GNN神经网络的生物信息获取方法，其特征在于：所述原子化学键有4个特征，且每个原子周边有8个电子，故所述化学键特征维度为32；所述原子化学键4个特征包括键类型、环的一部分、立体构型和芳香性。5.如权利要求4所述的基于GNN神经网络的生物信息获取方法，其特征在于：基于所述提取特征，为有N个原子的分子底物构建N*N*42维度的图神经网络。6.如权利要求5所述的基于GNN神经网络的生物信息获取方法，其特征在于：所述图神经网络的搭建包括信息传递和信息读取；所述信息传递中使用D
‑
MPNN使得图神经网络中每条边有两个相反的传播方向，并通过迭代使边和点的信息不断的更新；通过引入激活函数将结果变为非线性结构，所述激活函数表示为：；其中，为输入变量。7.如权利要求6所述的基于GNN神经网络的生物信息获取方法，其特征在于：在迭代后的信息末尾加入dropout，表示为：；其中，为掩码，表示odot为...

【专利技术属性】
技术研发人员：黄君贤，尹涛，高健峰，徐焕良，季呈明，陈子欣，许文文，刘泽民，
申请(专利权)人：南京农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人