本发明专利技术公开了基于低深度测序数据实现小麦外源渗入片段和种质资源鉴定的装置和计算机可读存储介质。本发明专利技术所要保护的一个技术方案是鉴定或辅助鉴定待测小麦基因组中外源渗入片段的装置,所述装置包括CNV区块鉴定模块和外源渗入片段输出模块。本发明专利技术通过提取小麦样本基因组DNA进行随机测序;鉴定小麦重测序样本相对于参考基因组的CNV区块;使用隐马尔科夫模型对初始CNV区块平滑降噪;过滤低频并且较短的CNV区块;根据重叠及连锁特征对CNV区块分类合并获得CNVb标记集;根据CNV区块与CNVb标记集的映射重叠比识别待测样本中的CNVb标记。本发明专利技术可用于六倍体小麦种质资源鉴定和外源渗入片段鉴定。
【技术实现步骤摘要】
本专利技术涉及植物基因组学领域,具体涉及基于低深度测序实现小麦外源渗入片段和种质资源的装置和计算机可读存储介质。
技术介绍
1、小麦是世界上种植面积最大的粮食作物,全世界有数十万份小麦遗传资源保存在基因库中,基因库种质集合的基因分型是解锁小麦遗传多样性进而实现品种改良的首要步骤。此外,经审定的小麦品种数量逐年增加,单纯依靠传统表型性状的田间鉴定已无法满足大规模小麦种质鉴定的需求。近年来,dna分子标记技术迅速发展,然而这些技术仍然具有检测通量低、成本高、技术复杂等缺点。小麦是异源六倍体,基因组庞大且复杂。前期研究表明,小麦育成品种中大量的基因组区间发生拷贝数变异(cnv,copy number variation),且具有高度多态性,因而通过cnv图谱的精准解析有望建立小麦分子指纹图谱的新型标记。
2、小麦野生近缘种的基因渗入是提高小麦遗传多样性的重要变异来源。传统的细胞学实验鉴定方法,例如荧光原位杂交技术,c显带等可以识别外源染色体渗入片段。然而,这些实验技术非常复杂,实验操作费时费力。渗入在染色体层面表现为大片段染色体的替换,在基因组层面表现为序列覆盖度的降低,即拷贝数的降低。因此,基于高通量重测序数据鉴定小麦基因组的拷贝数变异具备有效鉴定外源渗入的潜力。
3、此外,cnv检测较为稳定,即使基于低深度测序也能达到较理想的检测效果。因此,开发一种新型cnv分子标记鉴定技术,对实现高通量、高精度且低成本的种质资源鉴定和外源渗入片段鉴定具有重要意义。
技术实现思路
1、本专利技术所要解决的技术问题是如何高通量、低成本、高准确度地鉴定小麦种质资源和/或小麦外源渗入片段。
2、为了解决上述技术问题,本专利技术首先提供了鉴定或辅助鉴定待测小麦基因组中外源渗入片段的装置,所述装置可包括如下模块:
3、a1)cnv区块鉴定模块:用于鉴定待测小麦基因组数据的cnv区块,得到待测小麦的cnv区块;所述cnv区块是通过合并均为重复或缺失的cnv窗口得到的dna;所述cnv窗口是存在cnv的小窗,所述小窗是将全基因组按照长度均等划分得到的单位dna区段;
4、a2)外源渗入片段输出模块:用于将所述待测小麦的cnv区块与cnvb标记组成的cnvb标记数据库进行比对,获得所述cnvb标记,将所述待测小麦的cnv区块中含有的cnvb标记输出为外源渗入片段信息,得到待测小麦基因组中外源渗入片段;所述cnvb标记是已知品种小麦的基因组与小麦参考基因组比对及筛选得到的代表性cnv区块。
5、上述装置中,所述单位dna区段的长度可为100kb-2mb。所述单位dna区段的长度具体可为1mb。
6、所述归一化可通过计算单位窗口平均覆盖深度/全基因组单位窗口平均覆盖深度的众数或平均数获得。所述众数可为除0之外的数字。
7、上述装置中,a1)所述cnv区块鉴定模块可通过包括如下步骤的方法建立:
8、a1-1)将待测小麦基因组测序数据与小麦参考基因组数据进行比对和过滤获得bam格式比对文件;
9、a1-2)将所述bam格式比对文件中的序列按照序列长度均等划分为小窗,计算每个所述小窗中待测小麦基因组测序读段相对于小麦参考基因组序列的平均覆盖深度,计算整个待测小麦基因组序列所有小窗的的平均读段覆盖深度众数,使用所述平均读段覆盖深度众数将所述平均覆盖深度进行归一化,获得待测小麦基因组每个所述小窗的相对平均覆盖深度;
10、a1-3)从所述小窗中选择相对平均覆盖深度小于等于0.5的小窗标记为缺失变异窗口,选择所述相对平均覆盖深度大于等于1.5的小窗标记为重复变异窗口;将待测小麦基因组上相邻接的所述缺失变异窗口合并为缺失区块,将待测小麦基因组上相邻接的所述重复变异窗口合并为重复区块,所述缺失区块和所述重复区块构成待测小麦基因组的所述cnv区块;
11、a2)所述外源渗入片段输出模块可通过包括如下步骤的方法建立:
12、将所述待测小麦的cnv区块与所述cnvb标记数据库进行比对,保留所述待测小麦的cnv区块与所述cnvb标记数据库中的cnvb标记存在重叠序列,且同时所述cnv区块与所述cnvb标记长度差值l≤1mbp的cnvb标记为所述待测小麦基因组中的cnvb标记。
13、所述长度差值l的计算公式为式2:
14、l=lcnvb-lmarker 式2
15、式2中lcnvb为所述待测小麦的cnv区块的核苷酸序列长度,单位为bp;lmarker为所述cnvb标记数据库中的cnvb标记的核苷酸序列长度,单位为bp;
16、所述重叠比率rmap的计算公式为式3:
17、
18、式3中lmap为所述重叠序列的核苷酸序列长度,单位为bp;lmarker为所述cnvb标记数据库中的cnvb标记的核苷酸序列长度,单位为bp。
19、上文所述装置中,所述众数可为除0之外的数字。
20、上述装置中,所述待测小麦基因组数据可为低深度测序数据。
21、所述低深度测序数据可为测序深度大于等于0.1×的测序数据。
22、上述装置中所述小麦可为六倍体小麦或四倍体小麦,所述cnvb标记数据库可如表1所示。所述重叠序列的重叠比率rmap可大于等于0.9。
23、为了解决上述技术问题,本专利技术还提供了对待测小麦进行种质鉴定或辅助种质鉴定的装置,所述装置可包括如下模块:
24、b1)cnv区块鉴定模块:用于鉴定待测小麦基因组数据和已知品种小麦基因组数据的cnv区块,得到待测小麦的cnv区块;所述cnv区块是通过合并均为重复或缺失的cnv窗口得到的dna;所述cnv窗口是存在cnv的小窗,所述小窗是将全基因组按照长度均等划分得到的单位dna区段;
25、b2)外源渗入片段输出模块:用于将所述待测小麦的cnv区块与由cnvb标记组成的cnvb标记数据库进行比对,获得所述待测小麦的cnvb标记,将所述待测小麦的cnvb标记输出为外源渗入片段信息,得到待测小麦基因组中外源渗入片段;所述cnvb标记是已知品种小麦的基因组与小麦参考基因组比对及筛选得到的(代表性)cnv区块;
26、b3)相似度计算和鉴定结果输出模块:用于根据式7获得所述待测小麦与所述已知品种小麦的相似度,根据所述相似度输出待测小麦的种质鉴定结果;
27、
28、式7中similarity为相似度;msum为所述cnvb标记的总数,mdiff指所述待测小麦与所述已知品种小麦差异的cnvb标记个数。
29、b1)所述cnv区块鉴定模块可通过包括如下步骤的方法建立:
30、b1-1)将待测小麦基因组测序数据与小麦参考基因组数据进行比对和过滤获得bam格式比对文件;
31、b1-2)将所述bam格式比对文件中的序列按照长度均等划分为小窗,计算每个所本文档来自技高网
...
【技术保护点】
1.鉴定或辅助鉴定待测小麦基因组中外源渗入片段的装置,其特征在于:所述装置包括如下模块:
2.根据权利要求1所述的装置,其特征在于:
3.对待测小麦进行种质鉴定或辅助种质鉴定的装置,其特征在于:所述装置包括如下模块:
4.根据权利要求3所述的装置,其特征在于:B2)所述外源渗入片段输出模块通过包括如下步骤的方法建立:
5.根据权利要求1-4中任一权利要求所述的装置,其特征在于:所述待测小麦基因组数据为低深度测序数据。
6.鉴定或辅助鉴定待测小麦基因组中外源渗入片段的计算机可读存储介质,其特征在于:所述计算机可读存储介质使计算机运行如下步骤:
7.对待测小麦进行种质鉴定或辅助种质鉴定的计算机可读存储介质,其特征在于:所述计算机可读存储介质使计算机运行如下步骤:
8.根据权利要求6或7所述的计算机可读存储介质,其特征在于:所述待测小麦基因组数据为低深度测序数据。
9.鉴定或辅助鉴定生物基因组中外源渗入片段的装置,其特征在于:所述装置包括如下模块:
10.对生物进行种质鉴定或辅助种质鉴定的装置,其特征在于:所述装置包括如下模块:
...
【技术特征摘要】
1.鉴定或辅助鉴定待测小麦基因组中外源渗入片段的装置,其特征在于:所述装置包括如下模块:
2.根据权利要求1所述的装置,其特征在于:
3.对待测小麦进行种质鉴定或辅助种质鉴定的装置,其特征在于:所述装置包括如下模块:
4.根据权利要求3所述的装置,其特征在于:b2)所述外源渗入片段输出模块通过包括如下步骤的方法建立:
5.根据权利要求1-4中任一权利要求所述的装置,其特征在于:所述待测小麦基因组数据为低深度测序数据。
6.鉴定或辅助鉴定待测小麦基因组中外源渗...
【专利技术属性】
技术研发人员:郭伟龙,孙其信,牛建霞,王文熙,倪中福,彭惠茹,辛明明,王梓豪,陈哲,
申请(专利权)人:中国农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。