【技术实现步骤摘要】
一种DNA合成难度预测的系统及其应用
[0001]本专利技术涉及生物信息
,尤其涉及一种DNA合成难度预测的系统及其应用。
技术介绍
[0002]DNA合成与组装技术作为合成生物学的核心技术之一,是一种用于从头构建和组装核苷酸的方法,已被广泛应用于工程蛋白[1],基因编码[2]以及人工基因组合成[3
–
6]等方面。尤其是对于以从头基因组合成为基础的合成基因组学的发展来说,迫切地需要人工DNA合成技术的支持,也正是此项技术的出现,才真正使得基因组能够被人工“制造”出来。这些通过DNA合成技术所产生的核苷酸序列,是构建质粒、染色体[7,8]和基因组[6,9]的基础,这也使得构建具有特定DNA序列的合成遗传系统成为可能[10],推动了合成基因组学的蓬勃发展。
[0003]由于基因组的合成需要将其拆解为不同的长DNA片段,而这些长片段DNA的合成和组装,正是基因组合成过程中的限速步骤。此外,由于各种生物学的实验需要,如元件设计,途径改造设计等,近年来生物工作者对于DNA序列的合成需求急剧增加,因此,对于DNA合成的关注不容忽视。对于生物学家的DNA合成需求,各大生物公司及厂商均提供基因合成服务,比如美国的IDT,Gen Script,Gene Wiz,Twist Bioscience以及中国的华大基因,金斯瑞等。而一条碱基数量达到3000bp的DNA序列,需要5
‑
9个工作日才可交付,碱基数达到5000bp的序列,需要11
‑
25天才能被合成,甚至一些序列会 ...
【技术保护点】
【技术特征摘要】
1.一种DNA合成难度预测的机器学习系统,其特征在于,包括如下模块:1)数据预处理模块,用于对用户输入的序列数据进化标准化操作,得到清洗和去重后的待分类序列数据,包括冗余序列检测、非天然核苷酸检测与处理;2)特征构建模块,用于从核苷酸序列中提取出数字特征,将核苷酸序列数字化、向量化,变成机器学习模型可识别的矩阵,其中包括:训练模块,其用获取训练样本集,所述训练样本包括已知的合成难易的序列数据;对每条序列进行去冗余和非天然核苷酸检测等数据预处理操作,得到数据清洗后的序列数据;对清洗后的序列数据进行特征提取;特征计算模块,通过计算方法分别输出提取的与DNA合成难易相关的特征值。3)分类结果确定模块,用于将提取出的特征输入模型,得到预测模型的预测结果。2.如权利要求1所述的系统,其特征在于,训练模块的确定过程还包括特征简约模块,用于对所有的序列特征例如提取的序列特征进行约简,得到特征计算模块中预测用的特征;优选地,所用评分标准为F1评分,通过方差选择法,相关系数选择法,遗传算法进行特征约简;更具体地,首先,对于三种方法分别设置了不同的相应参数阈值,不同阈值下会对于特征进行约简,从而产生不同的特征组合,即在不同的参数组合中寻找最好的特征组合,使其训练模型性能最好。3.如权利要求2所述的系统,其特征在于,所述F1评分,其定义如下:其中,TP真阳性,FP假阳性,TN真阴性,FN假阴性。4.如权利要求2所述的系统,其特征在于,所述训练模型是自动机器学习模型Auto
‑
sklearn;进一步地,利用Auto
‑
sklearn训练得到一个包含20个模型组件的集成模型,作为最终的预测模型;20个模型组件的集成模型包括:16个extra trees、5个random forests、1个adaboost、1个latent dirichlet allocation(lda)和1个带有线性核的support vector machine。5.如权利要求1所述的系统,其特征在于,进一步还包括4)分类结果及特征计算结果展示模块,优选为在线可视化展示,用于将特征计算结果与模型预测结果进行可视化展示。6.如权利要求2
‑
4任一项所述的系统,其特征在于,所述预测用的特征包括以下31个特征:
7.如权利要求6所述的系统,其特征在于,所述得到数据清洗后的序列数据的具体方法是:采用的序列及标签数据来自文献中Salis实验室所创建的数据集,去除序列一致的序列,将难合成序列确定标签为0,易合成序列确定标签为1;具体地,共包含637条易合成序列,439条难合成序列,可作为标签数据进行算法开发;从核苷酸序列中提取出共426个序列特征,共包含11个类别的特征,其具体描述是:11个类别分别为:1)组成成分,2)核苷酸频率,3)电子
‑
...
【专利技术属性】
技术研发人员:廖小平,史振坤,任帅,张建琦,袁倩倩,陈阳,马红武,
申请(专利权)人:中国科学院天津工业生物技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。