一种基于机器学习识别基因组序列分类错误的方法和系统技术方案

技术编号：37158742 阅读：35 留言：0更新日期：2023-04-06 22:22

本发明专利技术公开了一种基于机器学习识别基因组序列分类错误的方法和系统，属于生物信息学技术领域。本发明专利技术还公开了一种构建用于识别组装基因组分类错误的机器学习模型的方法，包括以下步骤：获得多个有参考基因组的物种的组装基因组序列；将各组装基因组序列随机生成reads，并打断得到contigs序列集；将reads与各contigs序列集进行比对，获取各contig每个位置的比对参数，构建特征数据集；利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。利用本发明专利技术的方法和系统，可以准确判断组装基因组序列分类是否正确，删除分类错误的组装基因组后，利用剩余的高质量组装基因组序列作为参考数据库时，在实际样本检测中，能够有效降低检出假阳性。能够有效降低检出假阳性。能够有效降低检出假阳性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习识别基因组序列分类错误的方法和系统

[0001]本专利技术属于生物信息学
，具体地，涉及一种基于机器学习识别基因组序列分类错误的方法和系统。

技术介绍

[0002]在生物信息学领域，在对基因组序列进行分类后，通常需要进行检查以保正分类正确。美国国家生物技术信息中心(National Center for Biotechnology Information，NCBI)使用的基因组序列分类检查方法为：将待检测的基因组序列和该物种的参考基因组序列进行比对，计算两个基因组序列同源片段的碱基相似度，使用一致性大于96％和覆盖度大于80％作为阈值，来判断待检测的基因组序列是否存在物种分类错误的情况。
[0003]然而，该方法存在以下缺陷或不足：
[0004](1)对于每个物种，需要参考基因组序列；若待检测的基因组序列归属于无参物种，则无法进行判断；
[0005](2)判定阈值是一个确定的数值，对于不同类型的物种可能存在判断误差；比如进化速度较快的病毒，基因组序列中会存在较多的变异，相应的碱基相似度阈值应该使用较低的阈值；
[0006](3)与参考基因组存在较多变异的株系可能会被判为分类错误的基因组，即会出现误判。
[0007]QUAST是一款非常流行的基因组拼接结果评估软件(Alexey Gurevich，Vladislav Saveliev，Nikolay Vyahhi&Glenn Tesler.QUAST:quality assessment to...

【技术保护点】

【技术特征摘要】
1.一种构建用于识别组装基因组分类错误的机器学习模型的方法，其特征在于，包括以下步骤：S1，获得多个有参考基因组的物种的组装基因组序列，包括分类正确的组装基因组序列和分类错误的组装基因组序列；S2，将各组装基因组序列随机生成reads，长度为K；将各组装基因组序列按照长度为L、步长为N进行打断，分别得到contigs序列集，其中，K＝75～500，L＝1000～10000，N＝1～L；S3，将模拟生成的reads与各contigs序列集进行比对，获取各contig每个位置的以下参数：该位置是否为A、T、C、G；该位置检测基因型为A、T、C、G的reads数目；该位置的reads覆盖深度；该位置不一致reads数目，获得L
×
11矩阵，作为一个特征值，对于一个组装基因组序列，其contigs序列集中所有contig的特征值构成该组装基因组序列的特征数据集；S4，利用所有组装基因组序列的特征数据集及其分类是否错误的信息构建机器学习模型。2.根据权利要求1所述的方法，其特征在于，步骤S1中，所述组装基因组序列基于高通量测序数据组装得到；步骤S2中，每个组装基因组序列随机生成双端测序reads，分别为reads1和reads2，将所有组装基因组序列的reads1合并为模拟reads1，将所有组装基因组序列的reads2合并为模拟reads2；步骤S3中，按照双端reads比对模式与各contigs序列集进行比对。3.根据权利要求1所述的方法，其特征在于，步骤S1中，所述分类正确或分类错误利用MetaQUAST进行评估。4.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：陈燕君，王涛，肖姗姗，
申请(专利权)人：杭州瑞普医学检验实验室有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人