System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及物种鉴定领域,特别是涉及一种基于全长16s rrna三代测序数据的物种鉴定方法、装置及应用。
技术介绍
1、16s rrna基因是细菌上编码rrna相对应的dna序列,存在于所有细菌的基因组中,其具有高度的保守性和特异性以及该基因序列足够长(包含约50个功能域)的特点,随着pcr技术的出现及核酸研究技术的不断完善,16s rrna基因检测技术已成为病原菌检测和鉴定的一种强有力工具。
2、目前在进行16s rrna基因的物种鉴定时常用二代测序数据和三代测序数据,其中二代测序技术通常产生较短的读段,研究者能够利用这些短读段分析微生物样本中的物种多样性,然而这些短读段通常只覆盖16s rrna基因的小部分区域,限制了物种鉴定的分辨率,针对二代测序数据的常用分析工具是qiime(quantitative insights into microbialecology)和mothur,该工具可用于分析基于二代测序技术的微生物群落,它提供了从原始dna测序数据到物种鉴定和生态统计分析的一整套工作流程,但是这些方法依赖于短读段对特定的16s rrna区域(例如v3-v4区域)进行比对,虽然适合处理大量样本,但可能无法区分高度相似的物种;其中三代测序技术,特别是纳米孔测序技术,可以在单个分子水平上实时读取长dna序列,这种技术通过一个微小的纳米孔来检测通过孔的dna分子,从而能够产生比二代测序技术更长的读段,由于三代测序数据的读长长的特点,现有的三代全长16s测序数据的鉴定方法主要有两种:1.基于全局比对的方法,常用软件为m
3、另外,当前市面上的生物信息学工具往往专注于解决特定的问题,如数据质控、比对、物种鉴定等,而缺乏一个一体化的流程,从测序数据的输入到物种鉴定的输出就需要用户学习和操作多个软件工具,增加了操作复杂性和时间成本,对于非生物信息学背景的研究人员和技术人员来说,不仅需要理解各个分散的工具的功能和操作方法,还需要具备将它们有效结合使用的知识和技能。这一点在实际应用中成为了一个重要的障碍,限制了先进测序技术和物种鉴定方法的普及和应用。
技术实现思路
1、本申请实施例提供了一种基于全长16s rrna三代测序数据的物种鉴定方法、装置及应用,提供了一种一键式解决方案采用降维聚类技术降低了三代测序数据的固有随机错误带来的鉴定错误,采用相似度评估技术合并高度相似的物种提高了鉴定结果的可靠性。
2、第一方面,本申请实施例提供了一种对全长16s rrna纳米孔测序数据进行物种鉴定的方法,包括以下步骤:
3、获取待鉴定细菌的16s区域的原始纳米孔测序数据;
4、预处理原始纳米孔测序数据得到fastq格式的预处理序列,去除预处理序列两端的接头和barcode序列后保留序列长度在1300-1900bp之间的高质量序列;
5、基于高质量序列构建归一化kmer矩阵,其中归一化kmer矩阵的行为为一条序列,列为每类型的kmer,矩阵值为kmer在序列中出现的次数的归一化值;
6、对归一化kmer矩阵降维后进行二次聚类得到聚类簇,将同一聚类簇内的序列合并得到聚类序列;
7、将每一聚类序列同全长16s序列数据库内的序列进行比对得到每一聚类簇的最优物种并保留聚类簇内同最优物种的同属序列,若聚类簇内不同物种无法区分,则将不同物种的序列合并得到当前聚类簇的物种序列;
8、合并同一物种的物种序列生成一致性序列。
9、第二方面,本申请实施例提供了一种对全长16s rrna纳米孔测序数据进行物种鉴定装置,包括:
10、纳米孔测序数据获取单元,用于获取待鉴定细菌的16s区域的原始纳米孔测序数据;
11、纳米孔测序数据处理单元,用于预处理原始纳米孔测序数据得到fastq格式的预处理序列,去除预处理序列两端的接头和barcode序列后保留序列长度在1300-1900bp之间的高质量序列;
12、kmer矩阵处理单元,用于基于高质量序列构建归一化kmer矩阵,其中归一化kmer矩阵的行为为一条序列,列为每类型的kmer,矩阵值为kmer在序列中出现的次数的归一化值;
13、降维聚类单元,用于对归一化kmer矩阵降维后进行二次聚类得到聚类簇,将同一聚类簇内的序列合并得到聚类序列;
14、比对单元,用于将每一聚类序列同全长16s序列数据库内的序列进行比对得到每一聚类簇的最优物种并保留聚类簇内同最优物种的同属序列,若聚类簇内不同物种无法区分,则将不同物种的序列合并得到当前聚类簇的物种序列;
15、一致性序列生成单元,用于合并同一物种的物种序列生成一致性序列。
16、第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行任一所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法。
17、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据任一所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法。
18、本专利技术的主要贡献和创新点如下:
19、本申请实施例提出的方案提供了一种一键式的解决方案,极大简化了整个物种鉴定过程,使研究人员能够轻松地处理和分析三代16s纳米孔测序数据,其次通过采用降维聚类技术识别相同物种中的不同16s rrna拷贝,有效地降低了三代测序中固有的随机错误对物种鉴定的影响以提高了鉴定的准确度,且在降维时允许用户手动剔除数据中的噪音,进一步优化和精确化鉴定结果;此外,该方法还包括对参考数据库中不同物种进行物种间相似度评估的步骤,通过将鉴定结果中高度相似的物种合并,进一步提升了鉴定结果的可靠性和实用性。该方案提供了一个强大、精确且用户友好的工具,用于三代测序数据的物种鉴定可用于理解微生物多样性和演化这种综合性的方法,具有重要的科研和应用价值
20、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
本文档来自技高网...【技术保护点】
1.一种对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,在“预处理原始纳米孔测序数据得到fastq格式的预处理序列”步骤中,使用数据转换工具将原始纳米孔测序数据转换为fastq格式数据,查找fastq格式数据上的barcode并过滤掉交联序列,对过滤后的序列根据barcode进行拆分得到fastq格式的预处理序列。
3.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,在“查找fastq格式数据上的barcode并过滤掉交联序列”步骤中,以允许一个碱基容错的条件查找fastq格式数据上的barcode,且去除一条测序序列上包含不同的barcode的交联序列、barcode的序列不在测序序列两端的交联序列、不包含barcode的交联序列。
4.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,在“去除预处理序列两端的接头和barcode序列后保留
5.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,在“对归一化kmer矩阵降维后进行二次聚类得到聚类簇”步骤中,对归一化kmer矩阵降维后产生的降维结果进行一次聚类得到初步簇,以初步簇的质心为中心去除簇离群点得到聚类簇。
6.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,全长16s序列数据库内的全长的16s序列为MirrorDB的16s-23s扩增数据同ncbi上的16s blast比对后的得分高的16s位置对应的序列。
7.根据权利要求1所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法,其特征在于,在“若聚类簇内不同物种无法区分,则将不同物种的序列合并得到当前聚类簇的物种序列”步骤中,计算同一聚类簇内的不同物种的种间相似度以及物种内的种内相似度,若种间相似度高于种内相似度,则认为聚类簇内的不同物种无法区分,将不同物种的序列合并得到当前聚类簇的物种序列。
8.一种对全长16S rRNA纳米孔测序数据进行物种鉴定装置,其特征在于,包括:
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的对全长16SrRNA纳米孔测序数据进行物种鉴定的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1到7任一所述的对全长16S rRNA纳米孔测序数据进行物种鉴定的方法。
...【技术特征摘要】
1.一种对全长16s rrna纳米孔测序数据进行物种鉴定的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法,其特征在于,在“预处理原始纳米孔测序数据得到fastq格式的预处理序列”步骤中,使用数据转换工具将原始纳米孔测序数据转换为fastq格式数据,查找fastq格式数据上的barcode并过滤掉交联序列,对过滤后的序列根据barcode进行拆分得到fastq格式的预处理序列。
3.根据权利要求1所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法,其特征在于,在“查找fastq格式数据上的barcode并过滤掉交联序列”步骤中,以允许一个碱基容错的条件查找fastq格式数据上的barcode,且去除一条测序序列上包含不同的barcode的交联序列、barcode的序列不在测序序列两端的交联序列、不包含barcode的交联序列。
4.根据权利要求1所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法,其特征在于,在“去除预处理序列两端的接头和barcode序列后保留序列长度在1300-1900bp之间的高质量序列”步骤中,识别并去除预处理序列两端的接头和barcode序列,保留去除接头和barcode序列后的序列中长度在1300-1900bp之间的序列片段,去除低质量的序列片段后得到高质量序列。
5.根据权利要求1所述的对全长16s rrna纳米孔测序数据进行物种鉴定的方法,其特征在于,...
【专利技术属性】
技术研发人员:毛凌峰,舒强,吴斯豪,徐玮泽,赖登明,尚世强,陈英虎,徐兴宇,
申请(专利权)人:杭州柏熠科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。