一种DNA合成难度预测的系统及其应用技术方案

技术编号:38028434 阅读:10 留言:0更新日期:2023-06-30 10:54
本发明专利技术公开一种DNA合成难度预测的系统及其应用。其包括1)数据预处理模块,用于对用户输入的序列数据进化标准化操作;2)特征构建模块,用于从核苷酸序列中提取出数字特征,其中包括:训练模块,其用获取训练样本集,所述训练样本包括已知的合成难易的序列数据;对每条序列进行去冗余和非天然核苷酸检测等数据预处理操作,得到数据清洗后的序列数据;对清洗后的序列数据进行特征提取;特征计算模块,通过计算方法分别输出提取的与DNA合成难易相关的特征值;3)分类结果确定模块,用于将提取出的特征输入模型,得到预测模型的预测结果。得到预测模型的预测结果。

【技术实现步骤摘要】
一种DNA合成难度预测的系统及其应用


[0001]本专利技术涉及生物信息
,尤其涉及一种DNA合成难度预测的系统及其应用。

技术介绍

[0002]DNA合成与组装技术作为合成生物学的核心技术之一,是一种用于从头构建和组装核苷酸的方法,已被广泛应用于工程蛋白[1],基因编码[2]以及人工基因组合成[3

6]等方面。尤其是对于以从头基因组合成为基础的合成基因组学的发展来说,迫切地需要人工DNA合成技术的支持,也正是此项技术的出现,才真正使得基因组能够被人工“制造”出来。这些通过DNA合成技术所产生的核苷酸序列,是构建质粒、染色体[7,8]和基因组[6,9]的基础,这也使得构建具有特定DNA序列的合成遗传系统成为可能[10],推动了合成基因组学的蓬勃发展。
[0003]由于基因组的合成需要将其拆解为不同的长DNA片段,而这些长片段DNA的合成和组装,正是基因组合成过程中的限速步骤。此外,由于各种生物学的实验需要,如元件设计,途径改造设计等,近年来生物工作者对于DNA序列的合成需求急剧增加,因此,对于DNA合成的关注不容忽视。对于生物学家的DNA合成需求,各大生物公司及厂商均提供基因合成服务,比如美国的IDT,Gen Script,Gene Wiz,Twist Bioscience以及中国的华大基因,金斯瑞等。而一条碱基数量达到3000bp的DNA序列,需要5

9个工作日才可交付,碱基数达到5000bp的序列,需要11

25天才能被合成,甚至一些序列会由于合成失败而不能满足客户的合成需求[10]。而DNA序列能否在短时间内被准确合成与否,这与序列内部存在着的一系列影响因素有直接关系,并且它们的存在不能通过人类的经验直接识别,对于DNA合成产生了重要影响。因此,开发一个算法工具预测这些片段化的DNA序列能否被快速准确地合成出来,并确定干扰其合成的影响因素及特征,对于节约时间和实验成本来说都具有很重要的现实意义。
[0004]参考文献:
[0005][1]Lutz S.Beyond directed evolution

semi

rational protein engineering and design[J].Current Opinion in Biotechnology,2010,21(6):734

743.
[0006][2]Patterson S S,Dionisi H M,Gupta R K,et al.Codon optimization of bacterial luciferase(lux)for expression in mammalian cells[J].Journal of Industrial Microbiology and Biotechnology,2005,32(3):115

123.
[0007][3]Lau Y H,Stirling F,Kuo J,et al.Large

scale recoding of a bacterial genome by iterative recombineering of synthetic DNA[J].Nucleic Acids Research,2017,45(11):6971

6980.
[0008][4]Hutchison C A,Chuang R Y,Noskov V N,et al.Design and synthesis of a minimal bacterial genome[J].Science,2016,351(6280).
[0009][5]Boeke J D,Church G,Hessel A,et al.The genome project

write we need technology and an ethical framework for genome

scale engineering[J].Science,
2016,353(6295):126

127.
[0010][6]Gibson D G,Glass J I,Lartigue C,et al.Creation of a bacterial cell controlled by achemically synthesized genome[J].Science,2010,329(5987):52

56.
[0011][7]Gibson D G,Venter J C.Synthetic biology:Construction of a yeast chromosome[J].Nature,2014,509(7499):168

169.
[0012][8]Karas B J,Molparia B,Jablanovic J,et al.Assembly of eukaryotic algal chromosomes in yeast[J].Journal of Biological Engineering,2013,7(1).
[0013][9]Gibson D G,Smith H O,Hutchison C A,et al.Chemical synthesis of the mouse mitochondrial genome[J].Nature Methods,2010,7(11):901

903.
[0014][10]Halper S M,Hossain A,Salis H M.Synthesis Success Calculator:Predicting the Rapid Synthesis of DNA Fragments with Machine Learning[J].ACS Synthetic Biology,2020,9(7):1563

1571.

技术实现思路

[0015]基于以上问题,本专利技术通过确定426个可能影响DNA合成的序列特征,其中包括整体特征和局部特征,使用SSC中数据集,经过训练验证测试最终开发了一个DNA合成难度判断与分类模型,并通过特征约简最终确定了31个最相关特征,生成最终模型,其在测试集上的表现F1得分达到0.930,具有较高的准确性,是我们已知的最精确合成难度预测模型。我们还进行了实验验证,将我们的模型和已有模型对于大肠杆菌MG1655的基因序列进行预测,对于预测的序列通过实验合成进行验证,结果显示我们的方法具有很高的可靠性。此外,我们还初步进行无服务器的网站搭建工作,开发了交互式、用户友好式的网站平台,为用户提供精确地基因合成难度预测服务。
[0016]由此,本专利技术提供一种DNA合成难度预测的机器学习系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNA合成难度预测的机器学习系统,其特征在于,包括如下模块:1)数据预处理模块,用于对用户输入的序列数据进化标准化操作,得到清洗和去重后的待分类序列数据,包括冗余序列检测、非天然核苷酸检测与处理;2)特征构建模块,用于从核苷酸序列中提取出数字特征,将核苷酸序列数字化、向量化,变成机器学习模型可识别的矩阵,其中包括:训练模块,其用获取训练样本集,所述训练样本包括已知的合成难易的序列数据;对每条序列进行去冗余和非天然核苷酸检测等数据预处理操作,得到数据清洗后的序列数据;对清洗后的序列数据进行特征提取;特征计算模块,通过计算方法分别输出提取的与DNA合成难易相关的特征值。3)分类结果确定模块,用于将提取出的特征输入模型,得到预测模型的预测结果。2.如权利要求1所述的系统,其特征在于,训练模块的确定过程还包括特征简约模块,用于对所有的序列特征例如提取的序列特征进行约简,得到特征计算模块中预测用的特征;优选地,所用评分标准为F1评分,通过方差选择法,相关系数选择法,遗传算法进行特征约简;更具体地,首先,对于三种方法分别设置了不同的相应参数阈值,不同阈值下会对于特征进行约简,从而产生不同的特征组合,即在不同的参数组合中寻找最好的特征组合,使其训练模型性能最好。3.如权利要求2所述的系统,其特征在于,所述F1评分,其定义如下:其中,TP真阳性,FP假阳性,TN真阴性,FN假阴性。4.如权利要求2所述的系统,其特征在于,所述训练模型是自动机器学习模型Auto

sklearn;进一步地,利用Auto

sklearn训练得到一个包含20个模型组件的集成模型,作为最终的预测模型;20个模型组件的集成模型包括:16个extra trees、5个random forests、1个adaboost、1个latent dirichlet allocation(lda)和1个带有线性核的support vector machine。5.如权利要求1所述的系统,其特征在于,进一步还包括4)分类结果及特征计算结果展示模块,优选为在线可视化展示,用于将特征计算结果与模型预测结果进行可视化展示。6.如权利要求2

4任一项所述的系统,其特征在于,所述预测用的特征包括以下31个特征:
7.如权利要求6所述的系统,其特征在于,所述得到数据清洗后的序列数据的具体方法是:采用的序列及标签数据来自文献中Salis实验室所创建的数据集,去除序列一致的序列,将难合成序列确定标签为0,易合成序列确定标签为1;具体地,共包含637条易合成序列,439条难合成序列,可作为标签数据进行算法开发;从核苷酸序列中提取出共426个序列特征,共包含11个类别的特征,其具体描述是:11个类别分别为:1)组成成分,2)核苷酸频率,3)电子

...

【专利技术属性】
技术研发人员:廖小平史振坤任帅张建琦袁倩倩陈阳马红武
申请(专利权)人:中国科学院天津工业生物技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1