分子预测模型的训练方法及蛋白质口袋的处理方法技术

技术编号：43089597 阅读：22 留言：0更新日期：2024-10-26 09:37

本发明专利技术涉及分子预测技术领域，具体涉及一种分子预测模型的训练方法及蛋白质口袋的处理方法，其中分子预测模型的训练方法包括以下步骤：获取训练数据集，其中训练数据集包括多个应用场景、及与每个应用场景相对应的训练子集；依次利用每个训练子集对分子预测模型进行训练。由此可以使得训练得到的分子预测模型能够适用于多种场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分子预测，具体涉及一种分子预测模型的训练方法及蛋白质口袋的处理方法。

技术介绍

1、蛋白质口袋是蛋白质分子表面上的一个凹陷或深坑，通常由氨基酸残基的排列形成。这些口袋在蛋白质的三维结构中具有关键的功能，特别是在蛋白质与其他分子（如底物、配体或其他蛋白质）发生相互作用时。在药物设计中，药化专家会结合专家经验，设计出适合口袋的分子。

2、由于药物设计早期阶段中非常重要的步骤是发现适合给定条件下的分子，因此目前很多研究机构和药企在这方面投入了大量资源，在有口袋的情况下，研究机构和药企致力于找到适合特定口袋的分子，这需要大量的研究和实验来发现合适的分子结构。

3、在分子生成领域，深度神经网络的应用十分广泛，主要是因为它能够学习复杂的数据表示并进行高效的预测和生成。然而现有的分子生成模型仍面临一些挑战：（1）数据多样性，即不同场景下的数据特性可能大不相同。例如口袋nci（非共价相互作用，non-covalent interactions）预测模型，需要的数据是口袋和nci位点信息，而基于口袋的分子生成模型，需要的数据除了口袋之外还需要口袋对应的小分子。现有模型无法自适应不同场景下的数据输入。（2）任务多样性：不仅数据多样，任务类型也可能差异巨大。有些任务可能关注口袋上nci位点的预测，而其他任务可能更加关注分子的生成。因此，深度神经网络模型需要有足够的灵活性以适应这些不同的任务需求。

技术实现思路

1、有鉴于此，本专利技术提供了一种分子预测模型的训练方

2、第一方面，本专利技术提供了一种分子预测模型的训练方法，方法包括以下步骤：获取训练数据集，其中训练数据集包括多个应用场景、及与每个应用场景相对应的训练子集；依次利用每个训练子集对分子预测模型进行训练。

3、本专利技术实施例提供的分子预测模型的训练方法，通过获取训练数据集，其中所述训练数据集包括多个应用场景、及与每个所述应用场景相对应的训练子集；依次利用每个所述训练子集对所述分子预测模型进行训练；可以使得训练得到的分子预测模型能够适用于多种场景。

4、在一种可选的实施方式中，训练数据集包括第一应用场景、第二应用场景和第三应用场景：与第一应用场景相对应的第一训练子集中包括口袋数据集、锚点条件集、小分子结构数据集、及小分子属性信息集；与第二应用场景相对应的第二训练子集中包括口袋数据集、及锚点条件集；与第三应用场景相对应的第三训练子集中包括口袋数据集、小分子结构数据集、及小分子属性信息集。

5、由此可以使得训练得到的分子预测模型可以适用于用户有口袋pdb（proteindata bank）文件，也清楚口袋上的nci和锚点的信息，以及清楚所期望的分子属性，希望生成适合口袋的3d分子的推理场景；还可以适用于用户仅有口袋pdb文件以及期望的分子属性，希望生成适合口袋的3d分子的推理场景；还可以适用于用户仅有口袋pdb文件，希望生成锚点信息的推理场景。

6、在一些可选的实施方式中，依次利用每个训练子集对分子预测模型进行训练包括：利用第一训练子集对分子预测模型进行训练；在利用第一训练子集对分子预测模型进行训练之后，利用第二训练子集对分子预测模型进行训练；在利用第二训练子集对分子预测模型进行训练之后，利用第三训练子集对分子预测模型进行训练。

7、由此可以增强模型的泛化能力，即通过使用不同的训练子集，模型可以学习到更加多样化的数据特征，有助于提高模型在未见数据上的预测能力。每个训练子集可能代表数据的不同方面或不同的统计分布，这样的多样化训练可以减少过拟合的风险。

8、在一些可选的实施方式中，利用第一训练子集对分子预测模型进行训练包括：将口袋数据集和锚点条件集输入到分子预测模型的编码器，得到第一输出向量；将小分子属性信息集输入到分子预测模型的属性控制器，得到属性表征；将第一输出向量、属性表征和小分子结构数据集输入到分子预测模型的解码器，对分子预测模型进行训练；和/或，利用第二训练子集对分子预测模型进行训练包括：将口袋数据集和锚点条件集输入到分子预测模型的编码器对分子预测模型进行训练；和/或，利用第三训练子集对分子预测模型进行训练包括：将口袋数据集输入到分子预测模型的编码器，得到第二输出向量；将小分子属性信息集输入到分子预测模型的属性控制器，得到属性表征；将第二输出向量、属性表征和小分子结构数据集输入到分子预测模型的解码器，对分子预测模型进行训练。

9、由此能够使模型适应多种场景，达到同一个模型同一份参数能够处理多个场景问题的目的。

10、在一些可选的实施方式中，口袋数据集包括口袋的原子类型序列、口袋的原子坐标序列、口袋的原子级别的特征序列，将口袋数据集和锚点条件集输入到分子预测模型的编码器，得到第一输出向量包括：将口袋的原子类型序列进行嵌入式编码，得到特征维度为第一维度的原子类型表征；将口袋的原子坐标序列进行嵌入式编码，得到特征维度为第二维度的原子坐标表征；将第一维度的原子类型表征和第二维度的原子坐标表征进行拼接，得到特征维度为h的原子类型/坐标表征；将口袋的原子级别的特征序列进行嵌入式编码，得到特征维度为第三维度的原子级别特征表征；对锚点条件集进行嵌入式编码，得到特征维度为第四维度的nci/锚点表征；将第三维度的原子级别特征表征和第四维度的nci/锚点表征进行拼接，得到特征维度为h的口袋其它表征；将特征维度为h的原子类型/坐标表征和特征维度为h的口袋其它表征进行对位相加，得到特征维度为h的口袋表征，并将特征维度为h的口袋表征输入到编码器中，得到第一输出向量。

11、由此得到的第一输出向量可用于在第一应用场景和第二应用场景中训练分子预测模型，而且训练出来的模型，性能较好。

12、在一些可选的实施方式中，口袋数据集包括口袋的原子类型序列、口袋的原子坐标序列、口袋的原子级别的特征序列，将口袋数据集输入到分子预测模型的编码器，得到第二输出向量包括：将口袋的原子类型序列进行嵌入式编码，得到特征维度为第五维度的原子类型表征；将口袋的原子坐标序列进行嵌入式编码，得到特征维度为第六维度的原子坐标表征；将第五维度的原子类型表征和第六维度的原子坐标表征进行拼接，得到特征维度为h的原子类型/坐标表征；将口袋的原子级别的特征序列进行嵌入式编码，得到特征维度为第七维度的原子级别特征表征，对第七维度的原子级别特征表征进行特征投影，得到特征维度为h的口袋其它表征；将特征维度为h的原子类型/坐标表征和特征维度为h的口袋其它表征进行对位相加，得到特征维度为h的口袋表征，并将特征维度为h的口袋表征输入到编码器中，得到第二输出向量。

13、由此得到的第二输出向量可用于在第三应用场景中训练分子预测模型，而且训练出来的模型，性能较好。

14、在一些可选的实施方式中，小分子结构数据集包括分子的fsmiles类型序列和分子的fsmiles坐标序列；将第一输出向量、属性表征和小分子本文档来自技高网...

【技术保护点】

1.一种分子预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练数据集包括：

3.根据权利要求2所述的方法，其特征在于，所述依次利用每个所述训练子集对所述分子预测模型进行训练包括：

4.根据权利要求2所述的方法，其特征在于，利用所述第一训练子集对所述分子预测模型进行训练包括：

5.根据权利要求4所述的方法，其特征在于，所述口袋数据集包括口袋的原子类型序列、所述口袋的原子坐标序列、所述口袋的原子级别的特征序列，所述将所述口袋数据集和所述锚点条件集输入到所述分子预测模型的编码器，得到第一输出向量包括：

6.根据权利要求4所述的方法，其特征在于，所述口袋数据集包括口袋的原子类型序列、所述口袋的原子坐标序列、所述口袋的原子级别的特征序列，所述将所述口袋数据集输入到所述分子预测模型的编码器，得到第二输出向量包括：

7.根据权利要求4所述的方法，其特征在于，所述小分子结构数据集包括分子的FSMILES类型序列和分子的FSMILES坐标序列；所述将所述第一输出向量、所述属性表征

8.根据权利要求7所述的方法，其特征在于，在将所述第一输出向量、所述属性表征和所述小分子结构数据集输入到所述分子预测模型的解码器，对所述分子预测模型进行训练之前，或者，在将所述第一输出向量、所述属性表征和所述小分子结构数据集输入到所述分子预测模型的解码器，对所述分子预测模型进行训练之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述小分子按照预设的切割规则划分为多个片段包括：

10.根据权利要求1所述的方法，其特征在于，所述训练数据集包括力场精度训练数据集和实验精度训练数据集；其中，所述力场精度训练数据集和实验精度训练数据集包括多个应用场景、及与每个所述应用场景相对应的力场精度的训练子集；所述实验精度训练数据集包括多个应用场景、及与每个所述应用场景相对应的实验精度的训练子集。

11.一种蛋白质口袋的处理方法，其特征在于，所述方法包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述待匹配蛋白质口袋数据输入利用权利要求1~10任一项所述的方法训练得到的分子预测模型中，得到小分子结构信息包括：

13.根据权利要求11所述的方法，其特征在于，所述将所述待匹配蛋白质口袋数据输入利用权利要求1~10任一项所述的方法训练得到的分子预测模型中，得到小分子结构信息包括：

14.根据权利要求11所述的方法，其特征在于，所述将所述待匹配蛋白质口袋数据输入利用权利要求1~10任一项所述的方法训练得到的分子预测模型中，得到锚点信息包括：

15.一种分子预测模型的训练装置，其特征在于，所述装置包括：

16.一种蛋白质口袋的处理装置，其特征在于，所述装置包括：

17.一种计算机设备，其特征在于，包括：

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至10中任一项所述的分子预测模型的训练方法，和/或，权利要求11至14中任一项所述的蛋白质口袋的处理方法。

19.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令用于使计算机执行权利要求1至10中任一项所述的分子预测模型的训练方法，和/或，权利要求11至14中任一项所述的蛋白质口袋的处理方法。

...

【技术特征摘要】

1.一种分子预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练数据集包括：

3.根据权利要求2所述的方法，其特征在于，所述依次利用每个所述训练子集对所述分子预测模型进行训练包括：

4.根据权利要求2所述的方法，其特征在于，利用所述第一训练子集对所述分子预测模型进行训练包括：

7.根据权利要求4所述的方法，其特征在于，所述小分子结构数据集包括分子的fsmiles类型序列和分子的fsmiles坐标序列；所述将所述第一输出向量、所述属性表征和所述小分子结构数据集输入到所述分子预测模型的解码器包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述小分子按照预设的切割规则划分为多个片段包括：

10.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：王晗，冯伟，黄博，周文彪，肖洋，朱彦浩，董建强，
申请(专利权)人：北京望石智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人