蛋白-蛋白结合的亲和力预测方法和装置、设备及介质制造方法及图纸

技术编号：44611081 阅读：2 留言：0更新日期：2025-03-14 13:02

本申请公开了一种蛋白‑蛋白结合的亲和力预测方法和装置、设备及介质，可应用于药物靶点亲和力预测技术领域。本申请通过构建包含结构模型和第一单调神经网络模型的第一亲和力预测模型后，基于自注意力机制和互注意力机制对第一亲和力预测模型进行训练，从而可以模拟受体蛋白和配体蛋白相互作用的机制，进而提高模型准确度；接着构建包括序列模型和第二单调神经网络模型的第二亲和力预测模型后，基于训练后的结构模型输出的结构特征向量并采用对齐机制对第二亲和力预测模型进行训练，从而可以使序列模型拥有结构模型的精确度并保持自身原有的高通量筛选特性，进而可以在有效降低算法模型训练成本的同时，提高算法模型的亲和力预测准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及药物靶点亲和力预测，尤其涉及一种蛋白-蛋白结合的亲和力预测方法和装置、设备及介质。

技术介绍

1、相关技术中，蛋白药物发现工程的一个核心问题是评估药物蛋白和靶蛋白结合的强度，即亲和力。高通量的蛋白亲和力筛选可以加速蛋白药物的开发。通过实验确定高通量蛋白亲和力的方法虽然准确，但是由于需要繁琐的实验操作、严格的实验条件以及昂贵的仪器设备和耗材，因此，基于算法的亲和力预测是更有潜力实现高通量筛选的范式。然而，基于亲和力预测算法受到以下几个方面的限制：第一、由于严格意义的亲和力实验数据不足，而广义的亲和力实验数据相当多，但是严格意义的亲和力数据和广义的亲和力数据是异质的，使得基于目前的数据进行训练得到的算法模型比较泛化；第二、由于现实中获得准确的蛋白结构的时间和经济成本都很大，而亲和力最直接的决定因素是受体蛋白和配体蛋白的结构，特别是结合界面附近的结构，导致目前通过蛋白结构进行亲和力预测的算法模型成本较大。

2、综上，相关技术中存在的技术问题有待得到改善。

技术实现思路

1、本申请实施例的主要目的在于提出一种蛋白-蛋白结合的亲和力预测方法和装置、设备及介质，能够有效降低算法模型的训练成本，并提高算法模型的亲和力预测准确度。

2、为实现上述目的，本申请实施例的一方面提出了一种蛋白-蛋白结合的亲和力预测方法，所述方法包括以下步骤：

3、构建第一亲和力预测模型，所述第一亲和力预测模型包括结构模型和第一单调神经网络模型；

4、基于自注意力机

5、构建第二亲和力预测模型，所述第二亲和力预测模型包括序列模型和第二单调神经网络模型；

6、基于训练后的所述结构模型输出的结构特征向量，采用对齐机制对所述第二亲和力预测模型进行训练；

7、通过训练后的所述第二亲和力预测模型进行亲和力预测。

8、在一些实施例中，所述基于自注意力机制和互注意力机制对所述第一亲和力预测模型进行训练，包括：

9、获取配体蛋白结构特征信息、受体蛋白结构特征信息和第一异质亲和力；

10、将所述配体蛋白结构特征信息和受体蛋白结构特征信息输入所述结构模型，基于自注意力机制和互注意力机制对所述结构模型进行训练，输出第一特征向量；

11、将所述第一特征向量输入所述第一单调神经网络模型，得到第一预测亲和力；

12、根据所述第一异质亲和力和所述第一预测亲和力反馈调节所述第一亲和力预测模型的训练过程。

13、在一些实施例中，所述基于自注意力机制和互注意力机制对所述结构模型进行训练，包括：

14、控制受体蛋白根据所述受体蛋白结构特征信息更新自身特征，配体蛋白根据所述配体蛋白结构特征信息更新自身特征；

15、控制受体蛋白根据所述配体蛋白结构特征信息更新自身特征，配体蛋白根据所述受体蛋白结构特征信息更新自身特征。

16、在一些实施例中，所述基于训练后的所述结构模型输出的结构特征向量，采用对齐机制对所述第二亲和力预测模型进行训练，包括：

17、获取受体蛋白序列信息、配体蛋白序列信息和第二异质亲和力；

18、将所述受体蛋白序列信息和所述配体蛋白序列信输入所述序列模型，输出得到第二特征向量；

19、将所述第二特征向量输入所述第二单调神经网络模型，得到第二预测亲和力；

20、根据所述第二异质亲和力、所述第二预测亲和力、所述第一特征向量和所述第二特征向量采用对齐机制反馈调节所述第二亲和力预测模型的训练过程。

21、在一些实施例中，所述对齐机制如下公式：

22、

23、公式中，χstructure表示所述第一特征向量，χsequence表示所述第二特征向量，|| ||2表示l2范数，∈是一个极小数。

24、在一些实施例中，所述序列模型训练过程中的数据处理，包括以下步骤：

25、控制受体蛋白根据所述配体蛋白序列特征信息更新自身特征，配体蛋白根据所述受体蛋白序列特征信息更新自身特征。

26、在一些实施例中，所述结构模型在训练过程中的特征更新如下公式：

27、

28、公式中，l表示进行的第l轮特征更新，第i个氨基酸残基更新后的特征向量，是第l轮特征更新中残基i对残基j的总的注意力权重；第i个氨基酸残基的特征向量；rj和tj分别表示第j个氨基酸残基局部坐标系到全局坐标系的旋转矩阵以及平移向量；表示第i个氨基酸残基与第j个氨基酸残基形成的氨基酸残基对更新后的特征向量；在自注意力机制中，i和j表示同一个蛋白内部的残基；在互注意力机制中，i和j分别表示受体蛋白的残基和配体蛋白的残基；

29、所述序列模型在训练过程中的特征更新如下公式：

30、

31、h'li＝αli,rjlinear(hli)；

32、公式中，h'li表示配体中的第i个残基更新后的序列特征；hli表示配体中的第i个残基更新前的序列特征；hrj表示受体中第j个残基更新前的序列特征；hl代表配体的序列特征；hr代表受体的序列特征；αli,rj表示配体中的第i个残基对受体中的第j个残基的注意力；d表示常量；在自注意力机制中，i和j表示同一个蛋白内部的残基；在互注意力机制中，i和j分别表示受体蛋白的残基和配体蛋白的残基。

33、为实现上述目的，本申请实施例的另一方面提出了一种蛋白-蛋白结合的亲和力预测装置，所述装置包括：

34、第一模块，用于构建第一亲和力预测模型，所述第一亲和力预测模型包括结构模型和第一单调神经网络模型；

35、第二模块，用于基于自注意力机制和互注意力机制对所述第一亲和力预测模型进行训练；

36、第三模块，用于构建第二亲和力预测模型，所述第二亲和力预测模型包括序列模型和第二单调神经网络模型；

37、第四模块，用于基于训练后的所述结构模型输出的结构特征向量，采用对齐机制对所述第二亲和力预测模型进行训练；

38、第五模块，用于通过训练后的所述第二亲和力预测模型进行亲和力预测。

39、为实现上述目的，本申请实施例的另一方面提出了一种电子设备，包括：

40、至少一个处理器；

41、至少一个存储器，用于存储至少一个程序；

42、当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

43、为实现上述目的，本申请实施例的另一方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

44、本申请实施例至少包括以下有益效果：本申请提供一种蛋白-蛋白结合的亲和力预测方法和装置、设备及介质,该方案通过构建包含结构模型和第一单调神经网络模型的第一亲和力预测模型后，基于自注意力机制和互注意力机本文档来自技高网...

【技术保护点】

1.一种蛋白-蛋白结合的亲和力预测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于自注意力机制和互注意力机制对所述第一亲和力预测模型进行训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于自注意力机制和互注意力机制对所述结构模型进行训练，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于训练后的所述结构模型输出的结构特征向量，采用对齐机制对所述第二亲和力预测模型进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述对齐机制如下公式：

6.根据权利要求4所述的方法，其特征在于，所述序列模型训练过程中的数据处理，包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，所述结构模型在训练过程中的特征更新如下公式：

8.一种蛋白-蛋白结合的亲和力预测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计

...

【技术特征摘要】

1.一种蛋白-蛋白结合的亲和力预测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于自注意力机制和互注意力机制对所述第一亲和力预测模型进行训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于自注意力机制和互注意力机制对所述结构模型进行训练，包括：

5.根据权利要求4所述的方法，其特...

【专利技术属性】
技术研发人员：刘华清，陈沛逸，韩蓝青，
申请(专利权)人：赛业广州生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人