System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及免疫与药物开发,具体涉及一种b细胞线性表位的预测方法、装置及存储介质。
技术介绍
1、适应性免疫由b细胞和t细胞组成,他们识别不同特异性的抗原。b细胞主要刺激体液免疫。b细胞通过分泌抗体,发挥着重要的免疫作用。b细胞抗原决定簇(b细胞表位)是存在于抗原表面上,被b细胞受体特异性结合、引起机体免疫反应的蛋白质片段。根据表位的结构特征,可以分为线性表位和构象表位。他们的主要区别是组成表位的氨基酸是否在抗原蛋白上是连续的。实验的方法进行b细胞表位鉴定主要有肽微阵列、x射线晶体学和酶联免疫吸附试验(elisa)等。然而这些方法往往耗时、耗钱、且效率低下。使用计算的方法预测b细胞表位的工作可以大大加快b细胞表位的筛选,提升免疫治疗的效率、加速相关药物的开发。
2、目前已经开发出了很多基于计算的方法用于b细胞表位筛选。线性表位的预测方法较早,从上世纪80年代就开始出现。基于线性b细胞表位最早的模型是基于倾向性量表的方法。后来进入新世纪后开始陆续出现很多基于机器学习的模型,比如abcpred、bcpreds、svmtrip、bepipred-2.0、epitope1d等。最近几年开始出现用深度学习对线性b细胞表位进行建模的模型。比如epidope使用上下文敏感嵌入,并结合elmo+lstm进行了建模;netbce用cnn和blstm的架构对线性表位进行预测;caliber则是采用了esm-2预训练模型,结合blstm的模型,能够同时预测线性表位和构象表位。然而当前的模型在编码阶段常常只使用序列中氨基酸组成、k-mer
技术实现思路
1、本专利技术的目的在于克服上述技术不足,提供一种b细胞线性表位的预测方法、装置及存储介质,解决现有技术中如何提高b细胞线性表位的预测准确性的技术问题。
2、为达到上述技术目的,本专利技术的技术方案提供一种b细胞线性表位的预测方法,包括以下步骤:
3、s1、获取待测序列,对所述待测序列分别进行预处理得到目标输入序列;
4、s2、将步骤s1得到的所述目标输入序列中的每个氨基酸残基进行特征编码,输出每个序列的编码矩阵;
5、s3、将步骤s2得到的编码矩阵输入至b细胞线性表位预测模型中的2层卷积模块,输出每个序列的局部特征矩阵;
6、s4、将步骤s3得到的局部特征矩阵输入至训练好的b细胞线性表位预测模型中的2层或者5层bigru模块,输出每个序列的全局特征矩阵;
7、s5、将得到的每条序列的全局特征矩阵输入至b细胞线性表位预测模型中的3层全连接层,输出所述待测序列为b细胞表位的概率。
8、在任意实施方式中,在步骤s5之前,还包括将步骤s4得到的全局特征矩阵输入至b细胞线性表位预测模型中的自注意力模块,输出特征重新排列后的特征矩阵;
9、将得到的每条序列的特征重新排列后的特征矩阵输入至b细胞线性表位预测模型中的3层全连接层,输出所述待测序列为b细胞表位的概率。
10、在任意实施方式中,在步骤s1中,所述预处理包括:将氨基酸个数超过25的序列,截取前25个氨基酸作为目标输入序列;将氨基酸个数低于25的序列,在序列末尾追加“x”氨基酸至长度为25。
11、在任意实施方式中,在步骤s2中,所述特征编码包括物理和化学特征编码,依据从aaindex数据库中提取的28个已成功应用于蛋白质结合领域的特征作为目标输入序列中每个氨基酸残基的物理和化学特征编码。
12、在任意实施方式中,在步骤s2中,所述28个已成功应用于蛋白质结合领域的特征为:chop780202、cidh920103、cidh920105、fauj880109、fauj880111、fina910104、geim800104、geim800106、kanm800102、klep840101、kriw710101、lifs790101、meej800101、oobm770102、palj810107、qlan880123、racs770103、rada880108、rosm880102、swer830101、zimj680102、zimj680104、aurr980120、munv940103、nadh010104、nadh010106、guyh850105、miys990104。
13、在任意实施方式中,在步骤s3中,2层卷积模块中的每层包括一个卷积网络、一个批量标准化层、一个relu层和一个最大池化层。
14、在任意实施方式中,在步骤s5中,自注意力模型将序列的全局特征矩阵中的各个子序列的特征向量进行权重的重新分配,输出特征重新排列后的特征矩阵。
15、在任意实施方式中,在步骤s6中,所述3层全连接层包括2层串联的线性层和relu层、以及1层线性层和sigmoid层;将特征矩阵输入至2层串联的线性层和relu层;再经过1层线性层和sigmoid层,得到输入的序列为b细胞表位的概率。
16、此外,本专利技术还提出一种b细胞线性表位的预测装置,包括:
17、数据获取及预处理单元,用于获取待测序列,对所述待测序列分别进行预处理得到目标输入序列;
18、特征编码单元,用于将得到的所述目标输入序列中的每个氨基酸残基进行特征编码,输出每个序列的编码矩阵;
19、第一特征表示单元,用于将得到的编码矩阵输入至b细胞线性表位预测模型中的2层或者5层卷积模块,输出每个序列的局部特征矩阵;
20、第二特征表示单元,用于将得到的局部特征矩阵输入至训练好的b细胞线性表位预测模型中的2层双向gru模块,输出每个序列的全局特征矩阵;
21、预测单元,用于将得到的每条序列的特征矩阵输入至b细胞线性表位预测模型中的3层全连接层,输出所述待测序列为b细胞表位的概率。
22、另外,本专利技术还提出一种存储介质,其上存储有计算机程序,该程序被处理器执行时实施上述b细胞线性表位的预测方法。
23、与现有技术相比,本专利技术的有益效果包括:本专利技术提出的b细胞线性表位的预测方法,包括以下步骤:获取待测序列,对所述待测序列分别进行预处理得到目标输入序列;s2、将得到的所述目标输入序列中的每个氨基酸残基进行特征编码,输出每个序列的编码矩阵;将得到的编码矩阵输入至b细胞线性表位预测模型中的2层卷积模块,输出每个序列的局部特征矩阵;将得到的局部特征矩阵输入至训练好的b细胞线性表位预测模型中的2层或者5层双向gru模块,输出每个序列的全局特征矩阵;将得到的全局特征矩阵输入至b细胞线性表位预测模型中的自注意力模块,输出特征重新排列后的特征矩阵;将得到的每条序列重新排列后的特征矩阵输入至b细胞线性表位预测模型中的3层全连接层,输出所述待测序列为b细胞表位的概率。本发本文档来自技高网...
【技术保护点】
1.一种B细胞线性表位的预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的B细胞线性表位的预测方法,其特征在于,在步骤S5之前,还包括将步骤S4得到的全局特征矩阵输入至B细胞线性表位预测模型中的自注意力模块,输出特征重新排列后的特征矩阵;
3.根据权利要求1所述的B细胞线性表位的预测方法,其特征在于,在步骤S1中,所述预处理包括:将氨基酸个数超过25的序列,截取前25个氨基酸作为目标输入序列;将氨基酸个数低于25的序列,在序列末尾追加“X”氨基酸至长度为25。
4.根据权利要求1所述的B细胞线性表位的预测方法,其特征在于,在步骤S2中,所述特征编码包括物理和化学特征编码,依据从AAIndex数据库中提取的28个已成功应用于蛋白质结合领域的特征作为目标输入序列中每个氨基酸残基的物理和化学特征编码。
5.根据权利要求4所述的B细胞线性表位的预测方法,其特征在于,在步骤S2中,所述28个已成功应用于蛋白质结合领域的特征为:CHOP780202、CIDH920103、CIDH920105、FAUJ880109、FAUJ88011
6.根据权利要求1所述的B细胞线性表位的预测方法,其特征在于,在步骤S3中,2层卷积模块中的每层包括一个卷积网络、一个批量标准化层、一个ReLU层和一个最大池化层。
7.根据权利要求2所述的B细胞线性表位的预测方法,其特征在于,自注意力模型将序列的全局特征矩阵中的各个子序列的特征向量进行权重的重新分配,输出特征重新排列后的特征矩阵。
8.根据权利要求1所述的B细胞线性表位的预测方法,其特征在于,在步骤S5中,所述3层全连接层包括2层串联的线性层和ReLU层、以及1层线性层和Sigmoid层;将特征矩阵输入至2层串联的线性层和ReLU层;再经过1层线性层和Sigmoid层,得到输入的序列为B细胞表位的概率。
9.一种B细胞线性表位的预测装置,其特征在于,包括:
10.一种存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实施权利要求1至8任一项所述的B细胞线性表位的预测方法。
...【技术特征摘要】
1.一种b细胞线性表位的预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的b细胞线性表位的预测方法,其特征在于,在步骤s5之前,还包括将步骤s4得到的全局特征矩阵输入至b细胞线性表位预测模型中的自注意力模块,输出特征重新排列后的特征矩阵;
3.根据权利要求1所述的b细胞线性表位的预测方法,其特征在于,在步骤s1中,所述预处理包括:将氨基酸个数超过25的序列,截取前25个氨基酸作为目标输入序列;将氨基酸个数低于25的序列,在序列末尾追加“x”氨基酸至长度为25。
4.根据权利要求1所述的b细胞线性表位的预测方法,其特征在于,在步骤s2中,所述特征编码包括物理和化学特征编码,依据从aaindex数据库中提取的28个已成功应用于蛋白质结合领域的特征作为目标输入序列中每个氨基酸残基的物理和化学特征编码。
5.根据权利要求4所述的b细胞线性表位的预测方法,其特征在于,在步骤s2中,所述28个已成功应用于蛋白质结合领域的特征为:chop780202、cidh920103、cidh920105、fauj880109、fauj880111、fina910104、geim800104、geim800106、kanm800102、klep840101、kriw710101、lifs790101、meej800101、oobm...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。