System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种预测蛋白质互作用关系的处理方法和装置制造方法及图纸_技高网

一种预测蛋白质互作用关系的处理方法和装置制造方法及图纸

技术编号:44890465 阅读:2 留言:0更新日期:2025-04-08 00:28
本发明专利技术实施例涉及一种预测蛋白质互作用关系的处理方法和装置,所述方法包括:设置蛋白质异构图与微环境定义规则;构建第一数据集并基于蛋白质异构图与微环境定义规则对第一数据集的蛋白质信息进行结构化数据转换得到第二数据集;构建自编码器模型;并初始化微环境编码本E;并基于第二数据集和微环境编码本E对自编码器模型的编解码器进行训练并在训练过程中对微环境编码本E进行持续更新;并在训练结束时保存微环境编码本E;并基于自编码器模型构建互作用预测模型;并基于第二数据集和微环境编码本E训练互作用预测模型;训练结束后,利用互作用预测模型处理预测任务。通过本发明专利技术可以降低计算复杂度、提高预测效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及一种预测蛋白质互作用关系的处理方法和装置


技术介绍

1、蛋白质互作用(protein-protein interactions,ppis)关系在各种生物过程中起着至关重要的作用。对蛋白质互作用关系进行识别预测对于医学、制药和遗传研究具有极其重要的意义。目前,常规的预测方式是基于实验方式实现的,我们通过实践发现这种常规实验方式存在实验成本高、实验周期长、预测效率低等问题。


技术实现思路

1、本专利技术的目的,就是针对现有技术的缺陷,提供一种预测蛋白质互作用关系的处理方法、装置、电子设备及计算机可读存储介质。本专利技术预先通过采集公开数据集的成对蛋白质互作用信息构建第一数据集,并基于预设的蛋白质异构图与微环境定义规则对第一数据集的蛋白质信息进行结构化数据转换得到第二数据集;并构建一个用于处理蛋白质异构图的向量量化变分自编码器记为对应的自编码器模型,并基于自编码器模型的异构图编码器的输出特征维度初始化一个微环境编码本e,并基于第二数据集和微环境编码本e对自编码器模型的编解码器进行训练并在训练过程中对微环境编码本e进行持续更新,并在训练结束时保存微环境编码本e;并在自编码器模型的基础上增加其他组件构建一个用于预测蛋白质互作用关系的互作用预测模型,并基于第二数据集和保存的微环境编码本e对互作用预测模型进行训练;训练结束后基于互作用预测模型处理蛋白质互作用关系的预测任务。本专利技术一方面可以通过互作用预测模型来降低预测成本、提高预测效率,另一方面可以通过对微环境编码本e的学习来进一步降低计算复杂度、提高预测效率。

2、为实现上述目的,本专利技术实施例第一方面提供了一种预测蛋白质互作用关系的处理方法,所述方法包括:

3、设置蛋白质的异构图构建规则以及对应的微环境定义规则记为对应的蛋白质异构图与微环境定义规则;

4、通过采集公开数据集的成对蛋白质互作用信息构建数据集得到对应的第一数据集;并基于所述蛋白质异构图与微环境定义规则对所述第一数据集的蛋白质信息进行结构化数据转换得到对应的第二数据集;

5、构建一个用于处理蛋白质异构图的向量量化变分自编码器记为对应的自编码器模型;并基于所述自编码器模型的异构图编码器的输出特征维度初始化一个微环境编码本e;并基于所述第二数据集和所述微环境编码本e对所述自编码器模型的编解码器进行训练并在训练过程中对所述微环境编码本e进行持续更新;并在训练结束时保存所述微环境编码本e;所述自编码器模型包括所述异构图编码器、隐向量量化模块、隐向量反量化模块和异构图解码器;所述微环境编码本e由预设的微环境总数m的微环境特征em组成,所述微环境总数m为正整数,1≤微环境索引m≤m,所述微环境特征em的特征维度与所述异构图编码器的输出特征的特征维度一致;

6、在所述自编码器模型的基础上增加其他组件构建一个用于预测蛋白质互作用关系的互作用预测模型;并基于所述第二数据集和保存的所述微环境编码本e对所述互作用预测模型进行训练;

7、互作用预测模型训练结束后,接收用户输入的第一、第二蛋白质分子的分子序列与分子图信息组成对应的第一、第二蛋白质信息集;并按所述蛋白质异构图与微环境定义规则,根据所述第一、第二蛋白质信息集进行蛋白质异构图构建得到对应的第一、第二异构图;并利用所述互作用预测模型根据所述第一、第二异构图和保存的所述微环境编码本e进行蛋白质互作用关系预测处理得到对应的第一互作用预测向量向当前用户反馈。

8、优选的,所述蛋白质异构图与微环境定义规则规定每个蛋白质分子对应一个蛋白质异构图;所述蛋白质分子由多个蛋白质残基组成;

9、所述蛋白质异构图为一个残基级的异构图,由对应的残基节点集合和节点边集合组成;

10、所述残基节点集合由多个残基节点组成,每个所述残基节点对应一个所述蛋白质残基;每个所述残基节点的节点属性包括残基序列和蛋白质序列索引;所述残基序列为当前所述蛋白质残基的一维分子序列;所述蛋白质序列索引为当前所述残基序列在当前蛋白质分子序列中的排序索引;所述当前蛋白质分子序列为当前所述蛋白质异构图对应的蛋白质分子的一维分子序列;

11、所述节点边集合由多个节点边组成;每个所述节点边连接两个所述蛋白质残基;每个所述节点边的边属性包括序列边属性、半径边属性和近邻边属性:所述序列边属性、所述半径边属性和所述近邻边属性的属性值包括是和否;所述序列边属性的属性值若为是说明当前边连接的两个所述蛋白质残基在所述当前蛋白质分子序列中排序相邻,若为否说明当前边连接的两个所述蛋白质残基在蛋白质序列中排序不相邻;所述半径边属性的属性值若为是说明当前边连接的两个所述蛋白质残基的阿尔法碳原子之间的空间欧几里得距离小于或等于预设的距离阈值dr,若为否说明当前边连接的两个所述蛋白质残基的阿尔法碳原子之间的空间欧几里得距离大于所述距离阈值dr;所述近邻边属性的属性值若为是说明当前边连接的两个所述蛋白质残基的空间结构满足预设的k跳邻域残基要求,若为否说明当前边连接的两个所述蛋白质残基的空间结构不满足所述k跳邻域残基要求;

12、所述蛋白质异构图与微环境定义规则还规定所述蛋白质异构图由多个残基子图组成;所述残基子图与所述蛋白质残基一一对应;将各个所述残基子图对应的所述蛋白质残基记为核心残基vc1,则当前所述残基子图的所述残基节点集合由所述核心残基vc1及所有与所述核心残基vc1连接的其他所述蛋白质残基的所述残基节点组成,当前所述残基子图的所述节点边集合则由与所述核心残基vc1连接的所有所述节点边组成;

13、所述蛋白质异构图与微环境定义规则还规定每个所述蛋白质残基对应一个残基微环境;将所述残基微环境对应的所述蛋白质残基记为核心残基vc2,则当前所述残基微环境由所述核心残基vc2及其对应的所有微环境残基vme组成;所述核心残基vc2与对应的任意一个所述微环境残基vme之间应满足以下条件:在所述当前蛋白质分子序列中所述核心残基vc2与所述微环境残基vme对应的所述蛋白质序列索引的绝对差不超过预设的距离阈值ds,所述核心残基vc2与所述微环境残基vme连接的所述节点边的所述半径边属性和所述近邻边属性的属性值都为是。

14、优选的,所述第一数据集包括多个第一数据记录;每个所述第一数据记录对应一对蛋白质分子a、b;所述蛋白质分子a、b各自包含多个所述蛋白质残基;所述第一数据记录包括蛋白质信息a、蛋白质信息b和ab互作用关系信息;所述蛋白质信息a由所述蛋白质分子a对应的一维蛋白质分子序列以及二维蛋白质分子图组成;所述蛋白质信息b由所述蛋白质分子b对应的所述蛋白质分子序列以及所述蛋白质分子图组成;所述蛋白质分子序列由多个所述残基序列顺序排序而成,所述残基序列与所述蛋白质残基一一对应;所述蛋白质分子图由第一节点集合和第一边集合组成;所述第一节点集合由多个第一节点组成,所述第一节点与所述蛋白质残基一一对应,所述第一节点的节点属性至少包括当前所述蛋白质残基的阿尔法碳原子坐标;所述第一边集合由多个第一边组成,本文档来自技高网...

【技术保护点】

1.一种预测蛋白质互作用关系的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的预测蛋白质互作用关系的处理方法,其特征在于,

3.根据权利要求2所述的预测蛋白质互作用关系的处理方法,其特征在于,

4.根据权利要求3所述的预测蛋白质互作用关系的处理方法,其特征在于,

5.根据权利要求4所述的预测蛋白质互作用关系的处理方法,其特征在于,所述基于所述第二数据集和所述微环境编码本E对所述自编码器模型的编解码器进行训练并在训练过程中对所述微环境编码本E进行持续更新,具体包括:

6.根据权利要求4所述的预测蛋白质互作用关系的处理方法,其特征在于,

7.根据权利要求6所述的预测蛋白质互作用关系的处理方法,其特征在于,所述基于所述第二数据集和保存的所述微环境编码本E对所述互作用预测模型进行训练,具体包括:

8.根据权利要求6所述的预测蛋白质互作用关系的处理方法,其特征在于,所述利用所述互作用预测模型根据所述第一、第二异构图和保存的所述微环境编码本E进行蛋白质互作用关系预测处理得到对应的第一互作用预测向量向当前用户反馈,具体包括:

9.一种用于执行权利要求1-8任一项所述的预测蛋白质互作用关系的处理方法的装置,其特征在于,所述装置包括:第一预处理模块、第二预处理模块、第一模型构建与训练模块、第二模型构建与训练模块、预测模型应用模块;

10.一种电子设备,其特征在于,包括:存储器、处理器和收发器;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种预测蛋白质互作用关系的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的预测蛋白质互作用关系的处理方法,其特征在于,

3.根据权利要求2所述的预测蛋白质互作用关系的处理方法,其特征在于,

4.根据权利要求3所述的预测蛋白质互作用关系的处理方法,其特征在于,

5.根据权利要求4所述的预测蛋白质互作用关系的处理方法,其特征在于,所述基于所述第二数据集和所述微环境编码本e对所述自编码器模型的编解码器进行训练并在训练过程中对所述微环境编码本e进行持续更新,具体包括:

6.根据权利要求4所述的预测蛋白质互作用关系的处理方法,其特征在于,

7.根据权利要求6所述的预测蛋白质互作用关系的处理方法,其特征在于,所述基于所述第二数据集和保存的所述微环境编码本e对所述...

【专利技术属性】
技术研发人员:吴立荣林海涛高志锋赵国江柯国霖张林峰
申请(专利权)人:北京深势科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1