宏基因组序列溯源预训练大模型构建和微调方法技术

技术编号：44254983 阅读：8 留言：0更新日期：2025-02-14 22:01

一种宏基因组序列溯源预训练大模型构建和微调方法，在预训练模型基础上，通过构建基于HyenaDNA架构的宏基因组生物学分类(Taxonomic Classification)深度学习模型，以不同序列长度的DNA数据作为样本集进行训练，得到对宏基因组进行生物学分类的组合模型，实现对宏基因组样本中不同长度DNA序列的来源进行精准分类。本发明专利技术能够不依赖于标准数据库，直接对于宏基因组序列进行标签预测，从而可以预测宏基因组序列的生物学来源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种基因工程领域的技术，具体是一种基于hyenadna架构的宏基因组序列溯源预训练大模型构建和微调方法。

技术介绍

1、当前对于宏基因组样品来源进行生物学分类(taxonomic classification)通常使用基于同源性的dna/rna序列比对方法，对数据库进行查询。由于宏基因组样品往往包含着标准数据库中缺乏的物种数据，导致使用基于同源性的方法进行对这些数据难以分类。

技术实现思路

1、本专利技术针对现有基于同源性的dna/rna序列比对方法在缺乏参考数据的情况下对于宏基因组数据的分类的效果不佳的缺陷，提出一种宏基因组序列溯源预训练大模型构建和微调方法，能够不依赖于标准数据库，直接对于宏基因组序列进行标签预测，从而可以预测宏基因组序列的生物学来源。

2、本专利技术是通过以下技术方案实现的：

3、本专利技术涉及一种宏基因组序列溯源预训练大模型构建和微调方法，在预训练模型基础上，通过构建基于hyenadna架构的宏基因组生物学分类(taxonomic classification)深度学习模型，以不同序列长度的dna数据作为样本集进行训练，得到对宏基因组进行生物学分类的组合模型，实现对宏基因组样本中不同长度dna序列的来源进行精准分类。

4、所述的预训练模型，通过对来自标准数据库的dna序列预处理构成无标签数据集，用于训练初始空白模型，得到能够表征各个物种类群潜在的基因组序列组成模式的预训练模型。

5、所述的预处

6、所述的预训练是指：将各类别的数据集输入初始空白模型进行下一个核苷酸token预测的无标签任务，即通过已输入的token推测后续输入的token，并以预测结果和实际结果计算损失(loss)，根据损失反向传播更新模型参数，最后保存在测试集上损失(loss)最小模型参数。

7、所述的初始空白模型为基于hyenadna架构的深度学习模型，包括：hyenadna编码单元、池化单元和全连接解码单元，其中：hyenadna编码单元根据输入的dna序列信息，进行编码处理，得到嵌入向量(embedding)；池化单元根据嵌入向量信息，进行聚合处理，得到降维后的向量；全连接解码单元根据降维后的向量信息，进行前向处理，得到预测结果。

8、所述的初始空白模型中各单元内部的参数都为随机初始化得到；模型的输入长度属于超参数(hyperparameter)，由初始化时设置确定，不随着训练改变，其他超参数包括模型的层数、维度、隐藏层数则随训练优化。

9、所述的基于hyenadna架构的深度学习模型采用但不限于nguyen e，poli m，faizim，等在《hyenadna:long-range genomic sequence modeling at single nucleotideresolution》

10、(advances in neural information processing systems，2024，36.)中记载的技术实现。

11、所述的微调是指：通过对不同的生物学类群的序列打标签构成有标签的数据集，用于训练预训练模型，得到能够不依赖于标准数据库，直接对于宏基因组序列进行精准划分的最终模型，具体为：向预训练模型输入各类别的数据集，进行多分类(multi-classification)的任务。输入的各类别的dna数据都带有一个标签(label)，模型要通过输入的dna序列来预测这个序列的标签，根据预测结果和实际的结果来计算损失，根据损失反向传播更新模型参数，最后保留在验证集上损失最小的模型参数。

12、所述的不同的序列长度指在不同长度的序列为输入训练模型，比如100bp，500bp，1000bp等，以实现利用不同长度的序列进行物种分类。

13、所述的组合模型是指：将以不同长度序列为输入训练得到的预训练模型并列组合在一起，在在线阶段根据不同长度的dna将按照其所在的长度区间来输入不同模型进行处理，比如将100bp，500bp，1000bp输入的模型组合，在序列长度小于500bp的序列将输入100bp的模型预测，大于等于500小于1000bp的序列将输入500bp模型，大于等于1000bp的序列将输入1000bp模型，从而更好地应对宏基因组样品中dna序列长度变化多样的情况。

14、本专利技术涉及一种实现上述方法的系统，包括：数据收集单元、数据预处理单元、模型训练单元和模型组合单元，其中：数据收集单元根据生物学分类信息，从ncbi数据库中获取不同生物学分类的dna序列数据，数据预处理单元在不同生物学分类下，对下载得到数据集进行随机打乱，划分训练集、验证集、测试集。模型训练单元，将数据预处理单元得到的数据集输入模型并在不同输入序列长度下进行预训练和微调，得到能够处理不同输入序列长度的分类模型。模型组合单元将模型训练得到的能够处理不同输入序列长度的模型进行组合，得到可以处理不同长度序列的组合模型。

15、技术效果

16、本专利技术采用以hyenadna架构的深度学习模型，以ncbi上不同物种基因组为训练数据，训练能够对不同长度基因序列进行分类的预测模型，得到可以对绝大多数宏基因组序列进行溯源的人工智能模型。与现有技术相比，本专利技术能够更好地处理宏基因组中长度多变的序列，对其物种来源进行高精度预测，同时可以摆脱基因比对方法对于标准数据库的依赖。此外还可以对一些之前在标准数据库没有的序列进行较精准的生物学归类，例如可以帮助发掘宏基因组中存在的一些之前未知的病毒序列。

本文档来自技高网...

【技术保护点】

1.一种宏基因组序列溯源预训练模型构建和微调方法，其特征在于，在预训练模型基础上，通过构建基于HyenaDNA架构的宏基因组生物学分类(Taxonomic Classification)深度学习模型，以不同序列长度的DNA数据作为样本集进行训练，得到对宏基因组进行生物学分类的组合模型，实现对宏基因组样本中不同长度DNA序列的来源进行精准分类。

2.根据权利要求1所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的预训练模型，通过对来自标准数据库的DNA序列预处理构成无标签数据集，用于训练初始空白模型，得到能够表征各个物种类群潜在的基因组序列组成模式的预训练模型。

3.根据权利要求1或2所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的预处理是指：将从NCBI得到的基因组按照生物学分类为各自的数据集后，在每个类别的数据集内将基因组的序列随机打乱，再按照0.9：0.1：0.1的比例将每个类别的数据集划分为深度学习模型训练使用的训练集(train dataset)、验证集(validate dataset)和测试集(test dataset)。

4.根据权利要求1或2所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的预训练是指：将各类别的数据集输入初始空白模型进行下一个核苷酸token预测的无标签任务，即通过已输入的token推测后续输入的token，并以预测结果和实际结果计算损失(loss)，根据损失反向传播更新模型参数，最后保存在测试集上损失(loss)最小模型参数。

5.根据权利要求1或2所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的初始空白模型为基于HyenaDNA架构的深度学习模型，包括：HyenaDNA编码单元、池化单元和全连接解码单元，其中：HyenaDNA编码单元根据输入的DNA序列信息，进行编码处理，得到嵌入向量(embedding)；池化单元根据嵌入向量信息，进行聚合处理，得到降维后的向量；全连接解码单元根据降维后的向量信息，进行前向处理，得到预测结果；

6.根据权利要求1所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的微调是指：通过对不同的生物学类群的序列打标签构成有标签的数据集，用于训练预训练模型，得到能够不依赖于标准数据库，直接对于宏基因组序列进行精准划分的最终模型，具体为：向预训练模型输入各类别的数据集，进行多分类(multi-classification)的任务，输入的各类别的DNA数据都带有一个标签(label)，模型要通过输入的DNA序列来预测这个序列的标签，根据预测结果和实际的结果来计算损失，根据损失反向传播更新模型参数，最后保留在验证集上损失最小的模型参数。

7.根据权利要求6所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的不同的序列长度指在不同长度的序列为输入训练模型以实现利用不同长度的序列进行物种分类。

8.根据权利要求1所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的组合模型是指：将以不同长度序列为输入训练得到的预训练模型并列组合在一起，在在线阶段根据不同长度的DNA将按照其所在的长度区间来输入不同模型进行处理，从而更好地应对宏基因组样品中DNA序列长度变化多样的情况。

9.一种实现权利要求1-8中任一所述方法的宏基因组序列溯源预训练模型构建和微调系统，其特征在于，包括：数据收集单元、数据预处理单元、模型训练单元和模型组合单元，其中：数据收集单元根据生物学分类信息，从NCBI数据库中获取不同生物学分类的DNA序列数据，数据预处理单元在不同生物学分类下，对下载得到数据集进行随机打乱，划分训练集、验证集、测试集，模型训练单元，将数据预处理单元得到的数据集输入模型并在不同输入序列长度下进行预训练和微调，得到能够处理不同输入序列长度的分类模型，模型组合单元将模型训练得到的能够处理不同输入序列长度的模型进行组合，得到可以处理不同长度序列的组合模型。

...

【技术特征摘要】

1.一种宏基因组序列溯源预训练模型构建和微调方法，其特征在于，在预训练模型基础上，通过构建基于hyenadna架构的宏基因组生物学分类(taxonomic classification)深度学习模型，以不同序列长度的dna数据作为样本集进行训练，得到对宏基因组进行生物学分类的组合模型，实现对宏基因组样本中不同长度dna序列的来源进行精准分类。

2.根据权利要求1所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的预训练模型，通过对来自标准数据库的dna序列预处理构成无标签数据集，用于训练初始空白模型，得到能够表征各个物种类群潜在的基因组序列组成模式的预训练模型。

3.根据权利要求1或2所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的预处理是指：将从ncbi得到的基因组按照生物学分类为各自的数据集后，在每个类别的数据集内将基因组的序列随机打乱，再按照0.9：0.1：0.1的比例将每个类别的数据集划分为深度学习模型训练使用的训练集(train dataset)、验证集(validate dataset)和测试集(test dataset)。

5.根据权利要求1或2所述的宏基因组序列溯源预训练模型构建和微调方法，其特征是，所述的初始空白模型为基于hyenadna架构的深度学习模型，包括：hyenadna编码单元、池化单元和全连接解码单元，其中：hyenadna编码单元根据输入的dna序列信息，进行编码处理，得到嵌入向量(embedding)；池化单元根据嵌入向量信息，进行聚合处理...

【专利技术属性】
技术研发人员：鲁洪中，彭驿博，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人