本发明专利技术公开了一种基于机器学习识别基因组序列分类错误的方法和系统,属于生物信息学技术领域。本发明专利技术还公开了一种构建用于识别组装基因组分类错误的机器学习模型的方法,包括以下步骤:获得多个有参考基因组的物种的组装基因组序列;将各组装基因组序列随机生成reads,并打断得到contigs序列集;将reads与各contigs序列集进行比对,获取各contig每个位置的比对参数,构建特征数据集;利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。利用本发明专利技术的方法和系统,可以准确判断组装基因组序列分类是否正确,删除分类错误的组装基因组后,利用剩余的高质量组装基因组序列作为参考数据库时,在实际样本检测中,能够有效降低检出假阳性。能够有效降低检出假阳性。能够有效降低检出假阳性。
【技术实现步骤摘要】
一种基于机器学习识别基因组序列分类错误的方法和系统
[0001]本专利技术属于生物信息学
,具体地,涉及一种基于机器学习识别基因组序列分类错误的方法和系统。
技术介绍
[0002]在生物信息学领域,在对基因组序列进行分类后,通常需要进行检查以保正分类正确。美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)使用的基因组序列分类检查方法为:将待检测的基因组序列和该物种的参考基因组序列进行比对,计算两个基因组序列同源片段的碱基相似度,使用一致性大于96%和覆盖度大于80%作为阈值,来判断待检测的基因组序列是否存在物种分类错误的情况。
[0003]然而,该方法存在以下缺陷或不足:
[0004](1)对于每个物种,需要参考基因组序列;若待检测的基因组序列归属于无参物种,则无法进行判断;
[0005](2)判定阈值是一个确定的数值,对于不同类型的物种可能存在判断误差;比如进化速度较快的病毒,基因组序列中会存在较多的变异,相应的碱基相似度阈值应该使用较低的阈值;
[0006](3)与参考基因组存在较多变异的株系可能会被判为分类错误的基因组,即会出现误判。
[0007]QUAST是一款非常流行的基因组拼接结果评估软件(Alexey Gurevich,Vladislav Saveliev,Nikolay Vyahhi&Glenn Tesler.QUAST:quality assessment tool for genome assemblies.Bioinformatics.2013,29:1072
‑
1075.)。MetaQUAST是QUAST的一种修改版本(Mikheenko A,Saveliev V,Gurevich A.MetaQUAST:evaluation of metagenome assemblies.Bioinformatics.2016Apr 1;32(7)),是基于重叠群(contig)与参照对齐的基因组拼接评估的比较先进的工具,然而,该工具在评估时必须输入物种的参考基因组。
[0008]因此,本领域亟需一种精准的识别基因组序列分类是否存在错误的方法。
技术实现思路
[0009]为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:
[0010]本专利技术第一方面提供一种构建用于识别组装基因组分类错误的机器学习模型的方法,包括以下步骤:
[0011]S1,获得多个有参考基因组的物种的组装基因组序列,包括分类正确的组装基因组序列和分类错误的组装基因组序列;
[0012]S2,将各组装基因组序列随机生成reads,长度为K;将各组装基因组序列按照长度为L、步长为N进行打断,分别得到contigs序列集,其中,K=75~500,L=5000~10000,N=1~L;
[0013]S3,将模拟生成的reads与各contigs序列集进行比对,获取各contig每个位置的
以下参数:该位置是否为A、T、C、G;该位置检测基因型为A、T、C、G的reads数目;该位置的reads覆盖深度;该位置不一致reads数目,获得L
×
11矩阵,作为一个特征值,对于一个组装基因组序列,其contigs序列集中所有contig的特征值构成该组装基因组序列的特征数据集;
[0014]S4,利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。
[0015]在本专利技术的一些具体实施方案中,K=200,L=8000,N=7500,更加接近真实的高通量测序结果和contig组装结果。
[0016]在本专利技术的一些实施方案中,步骤S1中,所述组装基因组序列基于高通量测序数据组装得到;相应地,步骤S2中,每个组装基因组序列随机生成双端测序reads,优选地,利用art_illumina模拟生成HiSeq 2500平台的双端测序reads,分别为reads1和reads2,将所有组装基因组序列的reads1合并为模拟reads1,将所有组装基因组序列的reads2合并为模拟reads2;相应地,步骤S3中,按照双端reads比对模式与各contigs序列集进行比对。
[0017]在本专利技术的一些实施方案中,步骤S1中,获得所有有参物种的组装基因组序列。优选地,若某个物种的组装基因组序列过多,例如超过5个,则只保留其中5个组装基因组序列,以提高模型建立效率。
[0018]在本专利技术的一些实施方案中,步骤S1中,所述分类正确或分类错误利用MetaQUAST进行评估。
[0019]在本专利技术的一些实施方案中,所述机器学习模型基于神经网络算法进行构建。
[0020]在本专利技术的一些具体实施方案中,所述机器学习模型基于卷积神经网络算法进行构建。
[0021]进一步地,机器学习模型根据输入结果获得待识别组装基因组序列的组装基因组分值,若组装基因组分值低于预设阈值,则所述待识别组装基因组序列分类错误,若组装基因组分值不低于预设阈值,则所述待识别组装基因组序列分类正确。在本专利技术的一些实施方案中,所述预设阈值为根据多个同一物种的组装基因组序列的分值的作出曲线的拐点数值。在本专利技术的一些实施方案中,所述拐点是指曲线斜率开始减少的点,拐点对应的组装基因组分值接近峰值,从拐点开始,曲线增长放缓。在本专利技术的一些实施方案中,所述预设阈值为多个同属物种的拐点的代表值,所述代表值为平均值、中值、众数等有统计学意义的数值。
[0022]本专利技术第二方面提供一种识别物种组装基因组序列分类错误的方法,首先利用本专利技术第一方面步骤S2~S3构建待识别各组装基因组序列的特征数据集,并输入到本专利技术第一方面构建的机器学习模型中,从而判断所述待识别各组装基因组序列的分类是否错误。
[0023]本专利技术的识别物种组装基因组序列分类错误的方法,可以针对具有多个组装基因组序列的物种判断出其中分类错误的组装基因组序列。利用分类正确的组装基因组序列作为该物种的基因组库,进行比对等分析时会更加正确。
[0024]在本专利技术的一些实施方案中,获得某一物种所有组装基因组序列,并分别利用所述机器学习模型得到相应的组装基因组分值。去除组装基因组分值低于预设阈值的组装基因组序列,剩余的组装基因组序列可以用于构建该物种的参考基因数据库。
[0025]在本专利技术的一些实施方案中,获得某一物种所有组装基因组序列,并分别利用所
述机器学习模型得到相应的组装基因组分值。利用各个组装基因组分值绘制曲线,曲线拐点对应的组装基因组分值为拐点值,组装基因组分值低于拐点值的组装基因组被判定为分类错误,不能用于构建数据库。
[0026]本专利技术第三方面提供一种识别物种组装基因组序列分类错误的系统,包括以下模块:
[0027]数据输入模块,用于获得待识别各组装基因组序列的特征数据集;
[0028]数据存储模块,用于存储多本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种构建用于识别组装基因组分类错误的机器学习模型的方法,其特征在于,包括以下步骤:S1,获得多个有参考基因组的物种的组装基因组序列,包括分类正确的组装基因组序列和分类错误的组装基因组序列;S2,将各组装基因组序列随机生成reads,长度为K;将各组装基因组序列按照长度为L、步长为N进行打断,分别得到contigs序列集,其中,K=75~500,L=1000~10000,N=1~L;S3,将模拟生成的reads与各contigs序列集进行比对,获取各contig每个位置的以下参数:该位置是否为A、T、C、G;该位置检测基因型为A、T、C、G的reads数目;该位置的reads覆盖深度;该位置不一致reads数目,获得L
×
11矩阵,作为一个特征值,对于一个组装基因组序列,其contigs序列集中所有contig的特征值构成该组装基因组序列的特征数据集;S4,利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述组装基因组序列基于高通量测序数据组装得到;步骤S2中,每个组装基因组序列随机生成双端测序reads,分别为reads1和reads2,将所有组装基因组序列的reads1合并为模拟reads1,将所有组装基因组序列的reads2合并为模拟reads2;步骤S3中,按照双端reads比对模式与各contigs序列集进行比对。3.根据权利要求1所述的方法,其特征在于,步骤S1中,所述分类正确或分类错误利用MetaQUAST进行评估。4.根据权利要求1所述的方法,其特征在于...
【专利技术属性】
技术研发人员:陈燕君,王涛,肖姗姗,
申请(专利权)人:杭州瑞普医学检验实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。