一种用于B细胞的抗原表位预测方法技术

技术编号：32829883 阅读：93 留言：0更新日期：2022-03-26 20:40

一种用于B细胞的抗原表位预测方法，所述方法首先组成预训练集合PT；在Q_learning算法的每一个episode中，Q代理以蛋白质一级序列中任意8个连续的氨基酸残基为状态，以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作；以选择n个互补的分类器之一作为第二动作选项，按照连续动作搜索法在PT中进行搜索，对搜索出的氨基酸序列由倾向性奖励法则给出即时奖励，计算Q值并更新，直到价值函数的变化小于1％时结束训练；然后用训练得到的策略在蛋白质一级序列中搜索出氨基酸序列，并由选出的分类器进行分类。本发明专利技术通过自动迭代大大增强了B细胞抗原表位的预测能力，提高了抗原表位分类的准确率。提高了抗原表位分类的准确率。提高了抗原表位分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于B细胞的抗原表位预测方法

[0001]本专利技术涉及一种用于B细胞的抗原表位预测方法，可准确预测B细胞抗原表位，属于微生物人工智能检测

技术介绍

[0002]B细胞抗原表位的准确确定是生物活性药物及表位疫苗设计的重要基础，是疾病试剂盒研发的关键步骤，是研究免疫诊断和免疫治疗的基础技术。基于机器学习的B细胞抗原表位预测是确定抗原表位的一个重要技术路线，相比其他技术路线具有大幅节省时间、金钱、人力成本的优势。
[0003]SEPPA是美国国立过敏与感染性疾病研究院建设的免疫表位数据库(IEDB)中推荐的一款表位预测软件，2019年已经更新到3.0版。负责开发SEPPA 3.0的学者在其论文中指出，近十年来，构象表位预测的进展顺利但缓慢。
[0004]现有的表位预测都采用监督学习策略，对表位样本和非表位样本进行学习获得分类预测器。尽管新的表位预测方法不断出现，预测的准确率不断提升，还存在模型的普适性不高、分类准确性不高、预测模型更新慢等问题。特别是常用的窗口法在预测前预设一个整数作为预测结果中氨基酸的数量，这种方法人为性很强，很难预测出具有最佳长度的表位。
[0005]随着AlphaGo在围棋大战中击败最强人类选手，AlphaFold在蛋白质结构预测领域的革命性突破，这些成功给我们很大的启示。这两个突破都有一个共同特点，就是引入自动学习机制，让模型不断地自我迭代，逐渐产生强大的识别能力。
[0006]然而现有的方法都是非自动学习的，不能通过自动迭代来增强预测能力，因此将自动...

【技术保护点】

【技术特征摘要】
1.一种用于B细胞的抗原表位预测方法，其特征是，所述方法首先从IEDB数据库中搜索B细胞表位序列数据组成集合EPT，从uniport数据库中提取相应的蛋白质一级序列，组成预训练集合PT；基于Q_learning算法，将算法的一个动作变成两个动作进行训练；在每一个episode中，Q代理以蛋白质一级序列中任意8个连续的氨基酸残基为状态，以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作；以选择n个互补的分类器之一作为第二动作选项，按照连续动作搜索法在PT中的蛋白质一级序列中进行搜索，对搜索出的氨基酸序列由倾向性奖励法则给出即时奖励，计算Q值并更新，直到价值函数的变化小于1％时结束训练；然后用训练得到的策略在蛋白质一级序列中搜索出氨基酸序列，并由选出的分类器进行分类，从而实现B细胞抗原表位预测。2.根据权利要求1所述的用于B细胞的抗原表位预测方法，其特征是，所述方法包括以下步骤：a.从IEDB数据库中搜索B细胞抗原表位序列数据组成集合EPT，从uniport数据库中提取相应的蛋白质一级序列，组成预训练集合PT，选择包含n≥2个互补分类器作为第二动作的集合；b.以蛋白质一级序列中任意8个连续的氨基酸残基为状态，以从每个状态后面的12个连续残基中选择k个残基并入该状态作为第一个动作；以选择n个互补的分类器之一作为第二动作选项，将所有的状态和动作对应的Q值初始化为0，设学习率α为0到1之间的任意数，设折扣因子γ为0到1之间的任意数，设定episode的数值，初始状态s0为预训练集合的任意8个氨基酸残基；c.在每一个episode中，Q代理按照连续动作搜索法进行在集合PT中的蛋白质一级序列中进行搜索：在第t步骤，Q代理从第一个动作的集合中选择动作接着在第二动作的集合中选择动作两个动作执行完之后按照倾向性奖励法则给予奖励R
t
和下一个观察状态s
t+1
，然后更新Q值，同时更新状态和动作表，当价值函数的变化小于1％时，搜索训练过程结束；d.在每条蛋白质一级序列中利用训练得到的策略搜索出氨基酸组合，并由选出的分类器进行分类，如果分类器的结果显示搜索出的氨基酸序列是表位则认为其是B细胞抗原表位，否则不认为其是B细胞抗原表位。3.根据权利要求2所述的用于B细胞的抗原表位预测方法，其特征是，所述连续动作搜索法的具体搜索过程为：以每一条蛋白质一级序列的任意8个氨基酸残基作为初始状态s0，其对应的氨基酸序列记为X1X2…
X8，其中X
j
表示第j个氨基酸，j＝1,2，
…
,8，以从初始状态s0后面的12个连续残基中选择k个残基并入该状态作为第一个动作，1≤k≤12，以选择n个互补的分类器之一作为第...

【专利技术属性】
技术研发人员：羊红光，周云飞，成彬，
申请(专利权)人：河北省科学院应用数学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人