一种DNA合成难度预测的系统及其应用技术方案

技术编号：38028434 阅读：20 留言：0更新日期：2023-06-30 10:54

本发明专利技术公开一种DNA合成难度预测的系统及其应用。其包括1）数据预处理模块，用于对用户输入的序列数据进化标准化操作；2）特征构建模块，用于从核苷酸序列中提取出数字特征，其中包括：训练模块，其用获取训练样本集，所述训练样本包括已知的合成难易的序列数据；对每条序列进行去冗余和非天然核苷酸检测等数据预处理操作，得到数据清洗后的序列数据；对清洗后的序列数据进行特征提取；特征计算模块，通过计算方法分别输出提取的与DNA合成难易相关的特征值；3）分类结果确定模块，用于将提取出的特征输入模型，得到预测模型的预测结果。得到预测模型的预测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种DNA合成难度预测的系统及其应用

[0001]本专利技术涉及生物信息
，尤其涉及一种DNA合成难度预测的系统及其应用。

技术介绍

[0002]DNA合成与组装技术作为合成生物学的核心技术之一，是一种用于从头构建和组装核苷酸的方法，已被广泛应用于工程蛋白[1]，基因编码[2]以及人工基因组合成[3
–
6]等方面。尤其是对于以从头基因组合成为基础的合成基因组学的发展来说，迫切地需要人工DNA合成技术的支持，也正是此项技术的出现，才真正使得基因组能够被人工“制造”出来。这些通过DNA合成技术所产生的核苷酸序列，是构建质粒、染色体[7,8]和基因组[6,9]的基础，这也使得构建具有特定DNA序列的合成遗传系统成为可能[10]，推动了合成基因组学的蓬勃发展。
[0003]由于基因组的合成需要将其拆解为不同的长DNA片段，而这些长片段DNA的合成和组装，正是基因组合成过程中的限速步骤。此外，由于各种生物学的实验需要，如元件设计，途径改造设计等，近年来生物工作者对于DNA序列的合成需求急剧增加，因此，对于DNA合成的关注不容忽视。对于生物学家的DNA合成需求，各大生物公司及厂商均提供基因合成服务，比如美国的IDT，Gen Script，Gene Wiz，Twist Bioscience以及中国的华大基因，金斯瑞等。而一条碱基数量达到3000bp的DNA序列，需要5
‑
9个工作日才可交付，碱基数达到5000bp的序列，需要11
‑
25天才能被合成，甚至一些序列会...

【技术保护点】

【技术特征摘要】
1.一种DNA合成难度预测的机器学习系统，其特征在于，包括如下模块：1)数据预处理模块，用于对用户输入的序列数据进化标准化操作，得到清洗和去重后的待分类序列数据，包括冗余序列检测、非天然核苷酸检测与处理；2)特征构建模块，用于从核苷酸序列中提取出数字特征，将核苷酸序列数字化、向量化，变成机器学习模型可识别的矩阵，其中包括：训练模块，其用获取训练样本集，所述训练样本包括已知的合成难易的序列数据；对每条序列进行去冗余和非天然核苷酸检测等数据预处理操作，得到数据清洗后的序列数据；对清洗后的序列数据进行特征提取；特征计算模块，通过计算方法分别输出提取的与DNA合成难易相关的特征值。3)分类结果确定模块，用于将提取出的特征输入模型，得到预测模型的预测结果。2.如权利要求1所述的系统，其特征在于，训练模块的确定过程还包括特征简约模块，用于对所有的序列特征例如提取的序列特征进行约简，得到特征计算模块中预测用的特征；优选地，所用评分标准为F1评分，通过方差选择法，相关系数选择法，遗传算法进行特征约简；更具体地，首先，对于三种方法分别设置了不同的相应参数阈值，不同阈值下会对于特征进行约简，从而产生不同的特征组合，即在不同的参数组合中寻找最好的特征组合，使其训练模型性能最好。3.如权利要求2所述的系统，其特征在于，所述F1评分，其定义如下：其中，TP真阳性，FP假阳性，TN真阴性，FN假阴性。4.如权利要求2所述的系统，其特征在于，所述训练模型是自动机器学习模型Auto
‑
sklearn；进一步地，利用Auto
‑
sklearn训练得到一个包含20个模型组件的集成模型，作为最终的预测模型；20个模型组件的集成模型包括：16个extra trees、5个random forests、1个adaboost、1个latent dirichlet allocation(lda)和1个带有线性核的support vector machine。5.如权利要求1所述的系统，其特征在于，进一步还包括4)分类结果及特征计算结果展示模块，优选为在线可视化展示，用于将特征计算结果与模型预测结果进行可视化展示。6.如权利要求2
‑
4任一项所述的系统，其特征在于，所述预测用的特征包括以下31个特征：
7.如权利要求6所述的系统，其特征在于，所述得到数据清洗后的序列数据的具体方法是：采用的序列及标签数据来自文献中Salis实验室所创建的数据集，去除序列一致的序列，将难合成序列确定标签为0，易合成序列确定标签为1；具体地，共包含637条易合成序列，439条难合成序列，可作为标签数据进行算法开发；从核苷酸序列中提取出共426个序列特征，共包含11个类别的特征，其具体描述是：11个类别分别为：1)组成成分，2)核苷酸频率，3)电子
‑
...

【专利技术属性】
技术研发人员：廖小平，史振坤，任帅，张建琦，袁倩倩，陈阳，马红武，
申请(专利权)人：中国科学院天津工业生物技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人