一种抗体-抗原亲和力预测方法、装置、系统及存储介质制造方法及图纸

技术编号：42731605 阅读：22 留言：0更新日期：2024-09-13 12:17

本发明专利技术提供一种抗体‑抗原亲和力预测方法、装置、系统及存储介质，属于抗体‑抗原亲和力预测技术领域。所述方法包括：获取建模样本的抗体‑抗原亲和力数据及采集序列数据；将建模样本对应的抗体‑抗原亲和力数据和序列数据进行数据融合构建得到建模样本集合；获取建模样本集合中建模样本的序列特征和结构特征；根据序列特征和结构特征构建预测模型并对预测模型进行训练得到训练好的所述预测模型。本发明专利技术通过融合抗体和抗原的序列特征及结构特征来进行亲和力预测，有效地弥补了仅依赖序列数据可能遗漏的结构动态和复杂的空间关系，增强了预测模型的准确性，并保留了基于序列的模型的快速高通量的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于抗体-抗原亲和力预测，尤其涉及一种抗体-抗原亲和力预测方法、装置、系统及存储介质。

技术介绍

1、抗体是由免疫系统在遭遇病菌、病毒等抗原刺激后由b细胞分泌的蛋白质分子。它们具有特异性的免疫功能，通过y形结构的两端抗原结合位点(complementarity-determining regions，cdrs，互补决定区)特异性地识别和结合入侵的抗原。此过程使得抗原失活并促使白细胞吞噬，从而起到诊断和防治疾病的作用。随着医学的进步，抗体已被开发成治疗多种疾病的药物，特别是在癌症治疗中显示出较化学小分子药更好的靶向性和降低毒性的优势。

2、抗体的亲和力是评价其功能的关键参数，指抗体与抗原之间的结合强度。亲和力越高，抗体和相应抗原之间的结合强度就越强。亲和力对于抗体是最基础的属性，也是抗体质量的重要指标，没有足够的亲和力，抗体就无法和抗原稳定持续的结合，从而也无法有效发挥抗体的功能。然而过高的亲和力，在某些情况下会使抗体分子在特定区域发生聚集，影响抗体在病灶部位的扩散和蓄积，会影响药物的效果。因此，寻找具有合适亲和力水平的抗体是抗体药物研发的关键步骤，也是抗体药物的研发难点之一。

3、传统上，亲和力的提高，依赖于动物免疫获得初始抗体后，通过人工突变和湿实验迭代优化。这一方法虽然可以达到目的，但成本高昂，且时间效率低下。

4、近年来，人工智能技术的引入为抗体的亲和力优化带来了新的可能。通过建立大规模的虚拟突变文库并运用序列分析技术，可以快速筛选出潜在的优势抗体变体，这种方法减少了对湿实验(

5、尽管通过计算机技术进行的抗体亲和力预测提供了一个成本效益高的替代方案，现有技术依然存在不足。基于结构的预测方法需要精确的三维结构信息，而许多候选抗体并无可用的结构数据，使得这一方法在实际应用中受限。基于序列的方法虽然在操作上较为简便，但因忽略了结构信息，其预测的准确性往往不如基于结构的方法。由此可见，虽然人工智能为抗体亲和力研究提供了新的技术路径，但仍需改进以提高预测的精度和实用性。

技术实现思路

1、为解决上述问题，本专利技术提供一种抗体-抗原亲和力预测方法，包括：

2、获取建模样本的抗体-抗原亲和力数据，以及，采集所述建模样本对应的序列数据；其中，所述序列数据包括序列信息和结构信息；

3、将所述建模样本对应的抗体-抗原亲和力数据和序列数据进行数据融合，构建得到建模样本集合；

4、获取所述建模样本集合中每个建模样本的序列特征和结构特征；

5、根据所述序列特征和所述结构特征，构建预测模型，并对所述预测模型进行训练，

6、得到训练好的所述预测模型，以便于利用所述预测模型对待分析样本进行分析，得到预测结果。

7、优选地，所述获取建模样本的抗体-抗原亲和力数据，以及，获取所述建模样本对应的序列数据，包括：

8、采集抗体-抗原亲和力数据，作为建模样本；

9、获取每个所述建模样本所对应抗原和抗体的序列数据中的所述序列信息，以及每个所述序列信息对应的所述结构信息；

10、其中，在每个所述建模样本中，所述序列信息包括抗体的序列信息和与所述抗体对应的抗原的序列信息；所述抗体的序列信息包括重链序列信息和轻链序列信息中的至少一个；所述抗原的序列信息的数量为一条或两条。

11、优选地，所述抗体-抗原亲和力数据的数据类型包括解离常数和结合自由能；

12、所述将所述建模样本对应的抗体-抗原亲和力数据和序列数据进行数据融合，构建得到建模样本集合，包括：

13、将所有的所述抗体-抗原亲和力数据中，不符合预设亲和力数据类型的所述抗体-抗原亲和力数据，通过亲和力转换公式，转换为与所述预设亲和力数据类型一致的数据类型；

14、判断是否存在序列信息相同，但对应的多个抗体-抗原亲和力数据不同的建模样本；

15、若是，则将所述建模样本的多个所述抗体-抗原亲和力数据取平均值，并将所述平均值作为所述建模样本对应的所述抗体-抗原亲和力数据；

16、优选地，所述亲和力转换公式为：

17、

18、其中，δg代表结合自由能；kd代表解离常数；r代表气体常数；t代表华氏温度。

19、优选地，所述将所述建模样本对应的抗体-抗原亲和力数据和序列数据进行数据融合，构建得到建模样本集合之后，还包括：

20、对所述建模样本中的抗体-抗原亲和力数据分布优化处理；

21、所述数据分布优化处理包括：

22、确定所述抗体-抗原亲和力数据的正态分布参数，以及所述抗体-抗原亲和力数据的最大值和最小值；

23、基于所述最大值和所述最小值，对所有的所述抗体-抗原亲和力数据进行区间划分，得到包含有所述抗体-抗原亲和力数据的多个统计区间；

24、对划分到每个所述统计区间中的所述抗体-抗原亲和力数据的数据量进行统计，得到原始分布数据图；

25、根据所述正态分布参数构建正态分布步长数组，以及，计算得到正态分布值数组，并根据所述正态分布值数组构建正态分布数组；其中，所述正态分布数组为每个所述统计区间经过分布调整后的数据量的理论值；

26、基于所述原始分布数据图，通过所述正态分布数组将所有的所述抗体-抗原亲和力数据调整至服从正态分布。

27、优选地，所述基于所述最大值和所述最小值，对所有的所述抗体-抗原亲和力数据进行区间划分，得到包含有所述抗体-抗原亲和力数据的多个统计区间，包括：

28、获取预设区间数目；

29、根据所述预设区间数目计算得到区间长度；所述区间长度的计算方法为：

30、

31、其中，l代表所述区间长度；max代表所述最大值；min代表所述最小值；s代表所述预设区间数目；

32、在所述最大值和所述最小值之间，将所有的所述抗体-抗原亲和力数据划分为符合所述预设区间数目的所述统计区间；所述统计区间的表达式为：

33、[(min,min+l×1),(min+l×1,min+l×2),(min+l×2,min+l×3),…,(min+l×(s-1),max)]。

34、优选地，所述正态分布参数包括：均值、方差、步长和偏移量；

35、所述正态分布步长数组的表达式为：a＝[0,0+stride×1,0+stride×2,…]；

36、其中，a代表所述正态分布步长数组；stride代表所述正态分布参数中的所述步长；

37、所述正态分布值数组的计算方法为：

38、将所述正态分布步长数组中的每个元素输入到正态分布概率密度函数中计算得到所述正态分布值数组；

39、本文档来自技高网...

【技术保护点】

1.一种抗体-抗原亲和力预测方法，其特征在于，包括：

2.如权利要求1所述抗体-抗原亲和力预测方法，其特征在于，所述获取建模样本的抗体-抗原亲和力数据，以及，获取所述建模样本对应的序列数据，包括：

3.如权利要求1所述抗体-抗原亲和力预测方法，其特征在于，

4.如权利要求2所述抗体-抗原亲和力预测方法，其特征在于，所述将所述建模样本对应的抗体-抗原亲和力数据和序列数据进行数据融合，构建得到建模样本集合之后，还包括：

5.如权利要求4所述抗体-抗原亲和力预测方法，其特征在于，所述基于所述最大值和所述最小值，对所有的所述抗体-抗原亲和力数据进行区间划分，得到包含有所述抗体-抗原亲和力数据的多个统计区间，包括：

6.如权利要求4所述抗体-抗原亲和力预测方法，其特征在于，所述正态分布参数包括：均值、方差、步长和偏移量；

7.如权利要求6所述抗体-抗原亲和力预测方法，其特征在于，所述通过所述偏移量、所述正态分布中心位置和所述正态分布值数组中的每个元素，将所有的所述抗体-抗原亲和力数据调整至服从正态分布，包括：

<...

【技术特征摘要】

1.一种抗体-抗原亲和力预测方法，其特征在于，包括：

3.如权利要求1所述抗体-抗原亲和力预测方法，其特征在于，

6.如权利要求4所述抗体-抗原亲和力预测方法，其特征在于，所述正态分布参数包括：均值、方差、步长和偏移量；

8.如权利要求1所述抗体-抗原亲和力预测方法，其特征在于，所述序列特征包括pssm特征、独热编码特征和氨基酸理化性质特征...

【专利技术属性】
技术研发人员：张增明，莫凡，
申请(专利权)人：杭州纽安津生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人