一种用于B细胞的抗原表位预测方法技术

技术编号:32829883 阅读:93 留言:0更新日期:2022-03-26 20:40
一种用于B细胞的抗原表位预测方法,所述方法首先组成预训练集合PT;在Q_learning算法的每一个episode中,Q代理以蛋白质一级序列中任意8个连续的氨基酸残基为状态,以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作;以选择n个互补的分类器之一作为第二动作选项,按照连续动作搜索法在PT中进行搜索,对搜索出的氨基酸序列由倾向性奖励法则给出即时奖励,计算Q值并更新,直到价值函数的变化小于1%时结束训练;然后用训练得到的策略在蛋白质一级序列中搜索出氨基酸序列,并由选出的分类器进行分类。本发明专利技术通过自动迭代大大增强了B细胞抗原表位的预测能力,提高了抗原表位分类的准确率。提高了抗原表位分类的准确率。提高了抗原表位分类的准确率。

【技术实现步骤摘要】
一种用于B细胞的抗原表位预测方法


[0001]本专利技术涉及一种用于B细胞的抗原表位预测方法,可准确预测B细胞抗原表位,属于微生物人工智能检测


技术介绍

[0002]B细胞抗原表位的准确确定是生物活性药物及表位疫苗设计的重要基础,是疾病试剂盒研发的关键步骤,是研究免疫诊断和免疫治疗的基础技术。基于机器学习的B细胞抗原表位预测是确定抗原表位的一个重要技术路线,相比其他技术路线具有大幅节省时间、金钱、人力成本的优势。
[0003]SEPPA是美国国立过敏与感染性疾病研究院建设的免疫表位数据库(IEDB)中推荐的一款表位预测软件,2019年已经更新到3.0版。负责开发SEPPA 3.0的学者在其论文中指出,近十年来,构象表位预测的进展顺利但缓慢。
[0004]现有的表位预测都采用监督学习策略,对表位样本和非表位样本进行学习获得分类预测器。尽管新的表位预测方法不断出现,预测的准确率不断提升,还存在模型的普适性不高、分类准确性不高、预测模型更新慢等问题。特别是常用的窗口法在预测前预设一个整数作为预测结果中氨基酸的数量,这种方法人为性很强,很难预测出具有最佳长度的表位。
[0005]随着AlphaGo在围棋大战中击败最强人类选手,AlphaFold在蛋白质结构预测领域的革命性突破,这些成功给我们很大的启示。这两个突破都有一个共同特点,就是引入自动学习机制,让模型不断地自我迭代,逐渐产生强大的识别能力。
[0006]然而现有的方法都是非自动学习的,不能通过自动迭代来增强预测能力,因此将自动机制引入B细胞的抗原表位预测,设计一种能准确确定B细胞抗原表位的方法是十分必要的。

技术实现思路

[0007]本专利技术的目的在于针对现有技术之弊端,提供一种用于B细胞的抗原表位预测方法,以提高B细胞抗原表位预测的准确率。
[0008]本专利技术所述问题是以下述技术方案解决的:
[0009]一种用于B细胞的抗原表位预测方法,所述方法首先从IEDB数据库中搜索B细胞表位序列数据组成集合EPT,从uniport数据库中提取相应的蛋白质一级序列,组成预训练集合PT;基于Q_learning算法,将算法的一个动作变成两个动作进行训练;在每一个episode 中,Q代理以蛋白质一级序列中任意8个连续的氨基酸残基为状态,以从每个状态后面的12 个连续残基中选择k个残基并入该状态作为第一个动作;以选择n个互补的分类器之一作为第二动作选项,按照连续动作搜索法在PT中的蛋白质一级序列中进行搜索,对搜索出的氨基酸序列由倾向性奖励法则给出即时奖励,计算Q值并更新,直到价值函数的变化小于1%时结束训练;然后用训练得到的策略在蛋白质一级序列中搜索出氨基酸序列,并由选出的分类器进行分类,从而实现B细胞抗原表位预测。
[0010]上述用于B细胞的抗原表位预测方法,所述方法包括以下步骤:
[0011]a.从IEDB数据库中搜索B细胞抗原表位序列数据组成集合EPT,从uniport数据库中提取相应的蛋白质一级序列,组成预训练集合PT,选择包含n≥2个互补分类器作为第二动作的集合;
[0012]b.以蛋白质一级序列中任意8个连续的氨基酸残基为状态,以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作;以选择n个互补的分类器之一作为第二动作选项,将所有的状态和动作对应的Q值初始化为0,设学习率α为0到1之间的任意数,设折扣因子γ为0到1之间的任意数,设定episode的数值,初始状态s0为预训练集合的任意8个氨基酸残基;
[0013]c.在每一个episode中,Q代理按照连续动作搜索法进行在集合PT中的蛋白质一级序列中进行搜索:在第t步骤,Q代理从第一个动作的集合中选择动作接着在第二动作的集合中选择动作两个动作执行完之后按照倾向性奖励法则给予奖励R
t
和下一个观察状态s
t+1
,然后更新Q值,同时更新状态和动作表,当价值函数的变化小于1%时,搜索训练过程结束;
[0014]d.在每条蛋白质一级序列中利用训练得到的策略搜索出氨基酸组合,并由选出的分类器进行分类,如果分类器的结果显示搜索出的氨基酸序列是表位则认为其是B细胞抗原表位,否则不认为其是B细胞抗原表位。
[0015]上述用于B细胞的抗原表位预测方法,所述连续动作搜索法的具体搜索过程为:
[0016]以每一条蛋白质一级序列的任意8个氨基酸残基作为初始状态s0,其对应的氨基酸序列记为X1X2…
X8,其中X
j
表示第j个氨基酸,j=1,2,

,8,以从初始状态s0后面的12个连续残基中选择k个残基并入该状态作为第一个动作,1≤k≤12,以选择n个互补的分类器之一作为第二动作选项;根据对应的值选择第一个动作和第二动作,其中 a1,a2分别指第一个动作中所有的可能动作和第二动作中所有的可能动作,然后由倾向性奖励法则对以上的两个动作计算奖励,并按照下式计算价值函数:
[0017][0018]其中,V
π
(s)是状态s下的价值函数,π是策略,是期望,R
t
是t步的收益,V(s
t+1
) 是下一状态s
t+1
下的价值函数;
[0019]按照下式计算Q值:
[0020][0021]其中Q
π
(s,a1,a2)是状态s下执行两个连续动作的价值函数,是下一状态 s
t+1
下执行两个连续动作的价值函数;
[0022]同时按照下式更新Q值:
[0023][0024]然后改变状态,重复上述步骤,更新Q值。
[0025]上述用于B细胞的抗原表位预测方法,所述倾向性奖励法则为:
[0026]对第一个动作搜索出的氨基酸序列提取特征作为第二动作选择的分类器的输入,由分类器计算出氨基酸序列的分类得分SC
t
,在集合EPT中,对各种氨基酸出现的概率和包含连续二个氨基酸的氨基酸对出现的概率进行计算,对任意一种氨基酸as
i
出现的概率按照下式进行计算:
[0027][0028]其中as
i
代表20中氨基酸中的任意一个,num(as
i
)表示as
i
在集合EPT出现的次数, maxnum(as1,as2,

,as
20
)表示20种氨基酸在集合EPT中出现次数的最大值,minnum(as1,as2,

,as
20
)表示20种氨基酸在集合EPT中出现次数的最小值;
[0029]任意一种氨基酸对AA
i
的出现概率按照下式进行计算:
[0030][0031]其中AA
i
代表400种氨基酸对中的一个,num(AA
i
)表示AA
i
在集合EPT出现的次数, maxnum(AA1,A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于B细胞的抗原表位预测方法,其特征是,所述方法首先从IEDB数据库中搜索B细胞表位序列数据组成集合EPT,从uniport数据库中提取相应的蛋白质一级序列,组成预训练集合PT;基于Q_learning算法,将算法的一个动作变成两个动作进行训练;在每一个episode中,Q代理以蛋白质一级序列中任意8个连续的氨基酸残基为状态,以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作;以选择n个互补的分类器之一作为第二动作选项,按照连续动作搜索法在PT中的蛋白质一级序列中进行搜索,对搜索出的氨基酸序列由倾向性奖励法则给出即时奖励,计算Q值并更新,直到价值函数的变化小于1%时结束训练;然后用训练得到的策略在蛋白质一级序列中搜索出氨基酸序列,并由选出的分类器进行分类,从而实现B细胞抗原表位预测。2.根据权利要求1所述的用于B细胞的抗原表位预测方法,其特征是,所述方法包括以下步骤:a.从IEDB数据库中搜索B细胞抗原表位序列数据组成集合EPT,从uniport数据库中提取相应的蛋白质一级序列,组成预训练集合PT,选择包含n≥2个互补分类器作为第二动作的集合;b.以蛋白质一级序列中任意8个连续的氨基酸残基为状态,以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作;以选择n个互补的分类器之一作为第二动作选项,将所有的状态和动作对应的Q值初始化为0,设学习率α为0到1之间的任意数,设折扣因子γ为0到1之间的任意数,设定episode的数值,初始状态s0为预训练集合的任意8个氨基酸残基;c.在每一个episode中,Q代理按照连续动作搜索法进行在集合PT中的蛋白质一级序列中进行搜索:在第t步骤,Q代理从第一个动作的集合中选择动作接着在第二动作的集合中选择动作两个动作执行完之后按照倾向性奖励法则给予奖励R
t
和下一个观察状态s
t+1
,然后更新Q值,同时更新状态和动作表,当价值函数的变化小于1%时,搜索训练过程结束;d.在每条蛋白质一级序列中利用训练得到的策略搜索出氨基酸组合,并由选出的分类器进行分类,如果分类器的结果显示搜索出的氨基酸序列是表位则认为其是B细胞抗原表位,否则不认为其是B细胞抗原表位。3.根据权利要求2所述的用于B细胞的抗原表位预测方法,其特征是,所述连续动作搜索法的具体搜索过程为:以每一条蛋白质一级序列的任意8个氨基酸残基作为初始状态s0,其对应的氨基酸序列记为X1X2…
X8,其中X
j
表示第j个氨基酸,j=1,2,

,8,以从初始状态s0后面的12个连续残基中选择k个残基并入该状态作为第一个动作,1≤k≤12,以选择n个互补的分类器之一作为第...

【专利技术属性】
技术研发人员:羊红光周云飞成彬
申请(专利权)人:河北省科学院应用数学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1