基于最小化信息结构熵的蛋白质结构分类检测方法及装置制造方法及图纸

技术编号:38818756 阅读:24 留言:0更新日期:2023-09-15 19:57
本申请提供了一种基于最小化信息结构熵的蛋白质结构分类检测方法及装置,所述方法包括:获取蛋白质分子的生长轨迹数据,并构建有向图网络集合;将有向图网络集合初始化为第一编码树,对第一编码树的叶子节点计算信息结构熵,生成具有高度为k的第二编码树;通过信息结构熵最小化算法计算第二编码树中的每棵编码树,得到与每棵所述编码树对应的最优编码树,并构建最优编码树集合;将最优编码树集合输入至预先构建好的图卷积神经网络模型中,输出预测标签,根据预测标签得到蛋白质结构的分类结果。本申请所述的基于最小化信息结构熵的蛋白质结构分类检测方法及装置能够准确高效的对蛋白质结构进行分类检测,同时,可加速蛋白质结构的预测。结构的预测。结构的预测。

【技术实现步骤摘要】
基于最小化信息结构熵的蛋白质结构分类检测方法及装置


[0001]本申请属于蛋白质结构分类检测
,尤其涉及一种基于最小化信息结构熵的蛋白质结构分类检测方法及装置。

技术介绍

[0002]蛋白质是生物体内非常重要的生物大分子,它们在细胞中扮演着关键的功能和结构角色,例如催化代谢反应、传递信号、支持细胞结构等,由于蛋白质分子结构的多样性和复杂性,对蛋白质分子结构的分类和研究成为了生物学和生物化学领域的一个重要研究方向。
[0003]目前,蛋白质结构预测研究主要集中在基于机器学习的方法、基于序列特征的方法和基于蛋白质相互作用的方法上,其中,基于机器学习的方法主要使用支持向量机和随机森林等算法对蛋白质序列进行分析和学习,以预测其结构和相互作用模式。虽然这些方法在某些情况下能够取得较好的预测结果,但对于一些复杂的蛋白质结构和应用场景,这些方法在获取蛋白质的特征时可能获取的维度过高,导致实验周期过长,消耗大量的时间和资源,且预测结果仍然存在一定的误差和不确定性。

技术实现思路

[0004]有鉴于此,本申请旨在提出一种基于最小化信息结构熵的蛋白质结构分类检测方法及装置,以解决在进行蛋白质结构分类检测时,对于一些复杂的蛋白质结构和应用场景,预测结果仍然存在一定的误差和不确定性的问题。
[0005]为达到上述目的,本申请的技术方案是这样实现的:
[0006]本申请提供了一种基于最小化信息结构熵的蛋白质结构分类检测方法,所述方法包括:
[0007]获取蛋白质分子的生长轨迹数据,并构建有向图网络集合;
[0008]将所述有向图网络集合初始化为第一编码树,对所述第一编码树的叶子节点计算信息结构熵,生成具有高度为k的第二编码树;
[0009]通过信息结构熵最小化算法计算所述第二编码树中的每棵编码树,得到与每棵所述编码树对应的最优编码树,并构建最优编码树集合;
[0010]将所述最优编码树集合输入至预先构建好的图卷积神经网络模型中,输出预测标签,根据所述预测标签得到蛋白质结构的分类结果。
[0011]基于同一专利技术构思,本申请还提供了一种基于最小化信息结构熵的蛋白质结构分类检测装置,包括:
[0012]获取模块,被配置为获取蛋白质分子的生长轨迹数据,并构建有向图网络集合;
[0013]编码树生成模块,被配置为将所述有向图网络集合初始化为第一编码树,对所述第一编码树的叶子节点计算信息结构熵,生成具有高度为k的第二编码树;
[0014]最优编码树构建模块,被配置为通过信息结构熵最小化算法计算所述第二编码树
中的每棵编码树,得到与每棵所述编码树对应的最优编码树,并构建最优编码树集合;
[0015]结果分类模块,被配置为将所述最优编码树集合输入至预先构建好的图卷积神经网络模型中,输出预测标签,根据所述预测标签得到蛋白质结构的分类结果。
[0016]基于同一专利技术构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于最小化信息结构熵的蛋白质结构分类检测方法。
[0017]基于同一专利技术构思,本申请还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的基于最小化信息结构熵的蛋白质结构分类检测方法。
[0018]相对于现有技术,本申请所述的基于最小化信息结构熵的蛋白质结构分类检测方法及装置具有以下有益效果:
[0019]本申请所述的基于最小化信息结构熵的蛋白质结构分类检测方法及装置,所述方法通过对获取的蛋白质分子的生长轨迹数据进行数据处理,以生成得到编码树,通过最小化信息结构熵算法对编码树进行计算,得到最优编码树集合,利用图卷积神经网络模型对蛋白质结构的预测分类,得到蛋白质分子结构的分类结果,本方法提升了复杂结构的蛋白质分子的预测速度,提高了蛋白质分子分类的准确性和高效性,对蛋白质的研究和药物的开发具有重要意义。
附图说明
[0020]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1为本申请实施例所述的基于最小化信息结构熵的蛋白质结构分类检测方法流程图;
[0022]图2为本申请实施例所述的基于最小化信息结构熵的蛋白质结构分类检测装置结构示意图;
[0023]图3为本申请实施例所述的电子设备结构示意图。
具体实施方式
[0024]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0025]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0026]以下结合附图详细说明本申请的实施例。
[0027]请参阅图1所示,本申请一个实施例的基于最小化信息结构熵的蛋白质结构分类检测方法,包括以下步骤:
[0028]S1、获取蛋白质分子的生长轨迹数据,并构建有向图网络集合。
[0029]具体地,获取蛋白质分子的生长轨迹数据,将生长轨迹数据转化为邻接矩阵;
[0030]根据邻接矩阵构建有向图网络,其中,根据蛋白质分子的生长顺序,确定有向图网络中边的方向;
[0031]将每个蛋白质分子生成的有向图网络整合成有向图网络集合。
[0032]具体地,读取蛋白质分子的生长轨迹数据,在蛋白质分子的生长轨迹数据中,每个氨基酸都被标记成原子,解构保存蛋白质结构数据的文件,使用python读取文件中的数据,把数据转化成邻接矩阵A,其中,A∈R
n*n
,R表示为实数集,n为维数。
[0033]根据邻接矩阵A构建有向图网络,根据蛋白质分子的生长顺序,确定图网络中边的方向,在邻接矩阵A中,如果A
ij
≠0,代表蛋白质中原子i到原子j之间存在共价键,有向边的方向为i指向j,A
ij
的值代表有向边的权重。
[0034]将每个蛋白质生成的有向图网络整合成一个新的有向图网络集合G={G1,G2,
……
}。
[0035]S2、将有向图网络集合初始化为第一编码树,对第一编码树的叶子节点计算信息结构熵,生成具有高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最小化信息结构熵的蛋白质结构分类检测方法,其特征在于,所述方法包括:获取蛋白质分子的生长轨迹数据,并构建有向图网络集合;将所述有向图网络集合初始化为第一编码树,对所述第一编码树的叶子节点计算信息结构熵,生成具有高度为k的第二编码树;通过信息结构熵最小化算法计算所述第二编码树中的每棵编码树,得到与每棵所述编码树对应的最优编码树,并构建最优编码树集合;将所述最优编码树集合输入至预先构建好的图卷积神经网络模型中,输出预测标签,根据所述预测标签得到蛋白质结构的分类结果。2.根据权利要求1所述的基于最小化信息结构熵的蛋白质结构分类检测方法,其特征在于,所述获取蛋白质分子的生长轨迹数据,并构建有向图网络集合,包括:获取蛋白质分子的生长轨迹数据,将所述生长轨迹数据转化为邻接矩阵;根据所述邻接矩阵构建有向图网络,其中,根据所述蛋白质分子的生长顺序,确定所述有向图网络中边的方向;将每个蛋白质分子生成的有向图网络整合成有向图网络集合。3.根据权利要求2所述的基于最小化信息结构熵的蛋白质结构分类检测方法,其特征在于,所述将所述有向图网络集合初始化为第一编码树,对所述第一编码树的叶子节点计算信息结构熵,生成具有高度为k的第二编码树,包括:对所述第一编码树的叶子节点进行节点合并熵计算、节点移除熵计算和节点高度比较,以生成具有高度为k的第二编码树。4.根据权利要求3所述的基于最小化信息结构熵的蛋白质结构分类检测方法,其特征在于,所述通过信息结构熵最小化算法计算所述第二编码树中的每棵编码树,得到与每棵所述编码树对应的最优编码树,并构建最优编码树集合,包括:对每棵所述编码树,根据所述编码树的叶子节点相邻边的数量和叶子节点之间的相对位置计算信息结构熵,公式如下:其中v
t
是编码树T
i
中的非根节点,是v
t
的父节点,表示以v
t
作为非根节点的子树中与该子树中叶子节点相连边的数量,vol(V)和vol(v
t
)分别表示V和v
t
中叶子节点的入度权值和;对编码树T
i
进行最小化信息结构熵计算,生成与所述编码树T
i
对应的最优编码树,所述最小化信息结构熵计算公式如下:5.根据权利要求1所述的基于最小化信息结构熵的蛋白质结构分类检测方法,其特征在于,所述构建图卷积神经网络模型的构建方法包括:将最优编码树集合随机划分训练集、验证集和测试集,并对所述训练集、所述验证集和所述测试集进行归一化预处理;构建图卷积神经网络模型,并利用所述训练集对所述图卷积神...

【专利技术属性】
技术研发人员:王莉李玉勇王艳莉孙世温
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1