System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种注释人类线粒体基因组的方法、装置和存储介质制造方法及图纸_技高网

一种注释人类线粒体基因组的方法、装置和存储介质制造方法及图纸

技术编号:41208040 阅读:2 留言:0更新日期:2024-05-09 23:29
本申请公开了一种注释人类线粒体基因组的方法、装置和存储介质。本申请方法包括,比较样本区间与线粒体各基因坐标,若样本区间包括任一基因区域,则将其注释到样本区间;比较样本区间与OH和OL相对位置,标记样本区间是否包括OH、OL;计算样本区间与线粒体基因组拷贝数缺失案例的重叠比例,将大于阈值的案例注释到样本区间;将样本区间断裂点附近的参考序列的GC含量注释到样本区间;检测线粒体基因组参考序列在样本区间断裂点附近是否有重复序列;将以上信息注释到样本区间的线粒体基因组拷贝数缺失区域。本申请方法,节省了查阅文献和数据资料时间,能快速进行线粒体基因组拷贝数缺失注释,获得更完整的注释信息,且解读标准稳定。

【技术实现步骤摘要】

本申请涉及人类线粒体基因组注释,特别是涉及一种注释人类线粒体基因组的方法、装置和存储介质


技术介绍

1、线粒体是真核生物中为细胞提供能量atp的细胞器,它是半自主的细胞器,拥有自身的遗传物质,即线粒体基因组(mtdna)。mtdna编码2种rrna(12s及16s)、22种trna以及13种多肽,这些基因产物参与线粒体合成atp的过程。每个人类细胞的线粒体中含有上千的mtdna的拷贝,通常线粒体的点突变或缺失需要超过某个阈值才会对线粒体的功能造成实际影响,从而导致人类患病。研究发现线粒体基因组的拷贝数的减少与人类的衰老密切相关,同时线粒体拷贝数的减少还会增加心血管疾病和癌症等疾病死亡的风险。因此,对线粒体基因组进行测序,并分析其拷贝数是否存在缺失,对于研究人类线粒体疾病,以及健康人类预防疾病和延缓衰老有着重要意义。

2、现阶段并无工具可实现人类线粒体基因组拷贝数缺失的注释,通过分子实验方法qpcr(quantitative real-time polymerase chain reaction实时荧光定量多聚核苷酸链式反应)、mlpa(multiplex ligation-dependent probe amplification多重连接探针扩增技术)或者dna测序的方法检出的人类线粒体基因组拷贝数缺失仍只能通过人工查阅文献的方法来解读。而人工查阅文献来解读人类线粒体基因组拷贝数缺失有以下缺点:1)查阅文献和数据资料耗时较长;2)获取的人类线粒体基因组拷贝数缺失的信息可能不够完整;3)解读过程因人和因时而异,解读标准难以统一。

3、因此,如何快速、完整、且标准统一的进行人类线粒体基因组注释,仍然是本领域亟待解决的技术难题。


技术实现思路

1、本申请的目的是提供一种新的注释人类线粒体基因组的方法、装置和存储介质。

2、为了实现上述目的,本申请采用了以下技术方案:

3、本申请的第一方面公开了一种注释人类线粒体基因组的方法,包括以下步骤:

4、基因坐标比对步骤,包括将待分析的样本区间与线粒体基因数据库中的线粒体各基因的坐标进行比较,若样本区间包括所述线粒体基因数据库中任一线粒体基因的区域,则将该线粒体基因注释到样本区间;

5、复制起点标记步骤,包括比较待分析的样本区间与线粒体基因数据库中的重链复制起点oh和轻链复制起点ol的相对位置,根据比较结果标记样本区间是否包括oh和/或ol;例如,可能存在的几种标记情况为,包括oh、包括ol、包括oh和ol,或者不包括oh和ol;

6、案例注释步骤,包括计算待分析的样本区间与线粒体基因数据库中的人类线粒体基因组拷贝数缺失案例的重叠比例,若重叠比例大于设定的阈值,则将该案例相关信息注释到该样本区间;

7、gc含量注释步骤,包括计算人类线粒体基因组参考序列在待分析的样本区间断裂点附近的gc含量,将该gc含量注释到该样本区间;即找到断裂点在人类线粒体基因组参考序列上的位置,以该位置附近的参考序列的gc含量作为样本区间断裂点附近的gc含量;

8、重复序列注释步骤,包括检测人类线粒体基因组参考序列在待分析的样本区间断裂点附近是否存在重复序列,如果没有重复序列或重复序列位于断裂点上游则不需要校正,如果存在重复序列且位于断裂点下游,则将断裂点坐标加上重复序列长度得到的新断裂点坐标注释到该样本区间;

9、人类线粒体基因组拷贝数缺失注释步骤,包括将基因坐标比对步骤、复制起点标记步骤、案例注释步骤、gc含量注释步骤和重复序列注释步骤的信息注释到待分析的样本区间的人类线粒体基因组拷贝数缺失区域。

10、本申请中,线粒体基因数据库包括若干已知的人类线粒体基因坐标、基因编码产物信息、线粒体重链复制起点oh坐标、线粒体轻链复制起点ol坐标、人类线粒体基因组拷贝数缺失案例。

11、需要说明的是,本申请的人类线粒体基因组注释方法,通过线粒体基因数据库进行比较和注释,节约了查阅文献和数据资料的时间,能够快速的进行人类线粒体基因组拷贝数缺失注释,不仅能够获得更完整的注释信息,而且还能够获得统一的解读标准。此外,本申请的一种实现方式中,各步骤都通过程序实现自动化处理,从而实现人类线粒体基因组拷贝数缺失的自动化注释,进一步缩短了注释时间,提高了注释效率和质量。

12、本申请的一种实现方式中,基因坐标比对步骤,样本区间包括所述线粒体基因数据库中任一线粒体基因的区域,具体为,样本区间包括所述线粒体基因数据库中任一线粒体基因的至少1bp序列。

13、本申请的一种实现方式中,案例注释步骤,重叠比例的具体计算方式为,将样本区间的缺失区间,与线粒体基因数据库中的人类线粒体基因组拷贝数缺失案例的缺失区间进行比较,根据以下公式分别计算样本区间重叠比例和案例重叠比例;

14、样本区间重叠比例=(s3÷s1)×100%,

15、案例重叠比例=(s3÷s2)×100%,

16、其中,s1为样本区间的缺失区间的长度,s2为人类线粒体基因组拷贝数缺失案例的缺失区间的长度,s3为样本区间的缺失区间与人类线粒体基因组拷贝数缺失案例的缺失区间重叠的序列长度。

17、本申请的一种实现方式中,阈值为90%。

18、需要说明的是,本申请的重叠比例是指样本检测出的拷贝数缺失区间与数据库中拷贝数缺失案例的重叠比例,例如,样本区间检出1-10范围的缺失,数据库中有2-11的缺失,它们重叠部分为2-10,重叠部分长度为9,重叠部分占样本区间(1-10)的比例为90%,重叠部分占数据库案例区间(2-11)的比例为90%,这两个重叠比例都需要大于90%。可以理解,当设定的重叠比例阈值太低,会有太多相似度不高的数据库中的案例匹配上样本区间;因此,优选的阈值为90%。

19、本申请的一种实现方式中,gc含量注释步骤,计算人类线粒体基因组参考序列在待分析的样本区间断裂点附近的gc含量,具体包括,计算样本区间断裂点的5’端到上游120bp的gc含量,以及样本区间断裂点的3’端到下游120bp的gc含量;若上游基因组长度小于120bp,则计算样本区间断裂点的5’端到线粒体基因组起点的gc含量;若下游基因组长度小于120bp,则计算样本区间断裂点的3’端到线粒体基因组终点的gc含量。

20、需要说明的是,gc含量对于pcr扩增序列有直接影响,基因组区域gc含量过高和过低会导致这个区域测得的深度有偏差,即测序深度不能真实反映这个区域是否存在缺失,因此计算gc含量可给解读人员提供重要参考。

21、还需要说明的是,本申请是以断裂点附近的参考序列的gc含量作为表征,因为,不可能直接计算断裂点附近的样本序列的gc含量。一方面,测序的序列都是150bp这些散落的序列,且样本序列数量极大,存在大量重复序列,无法选择样本序列进行gc含量计算;另一方面,样本序列之间有空隙,也会导致gc含量计算的不准确。因此,本申请直接计算断裂点附近本文档来自技高网...

【技术保护点】

1.一种注释人类线粒体基因组的方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的方法,其特征在于:所述基因坐标比对步骤中,样本区间包括所述线粒体基因数据库中任一线粒体基因的区域,具体为,样本区间包括所述线粒体基因数据库中任一线粒体基因的至少1bp序列。

3.根据权利要求1所述的方法,其特征在于:所述案例注释步骤中,所述重叠比例的具体计算方式为,将样本区间的缺失区间,与线粒体基因数据库中的人类线粒体基因组拷贝数缺失案例的缺失区间进行比较,根据以下公式分别计算样本区间重叠比例和案例重叠比例;

4.根据权利要求1-3任一项所述的方法,其特征在于:所述GC含量注释步骤中,计算人类线粒体基因组参考序列在待分析的样本区间断裂点附近的GC含量,具体包括,计算样本区间断裂点的5’端到上游120bp的GC含量,以及样本区间断裂点的3’端到下游120bp的GC含量;若上游基因组长度小于120bp,则计算样本区间断裂点的5’端到线粒体基因组起点的GC含量;若下游基因组长度小于120bp,则计算样本区间断裂点的3’端到线粒体基因组终点的GC含量;

5.一种注释人类线粒体基因组的装置,其特征在于:包括基因坐标比对模块、复制起点标记模块、案例注释模块、GC含量注释模块、重复序列注释模块和人类线粒体基因组拷贝数缺失注释模块;

6.根据权利要求5所述的装置,其特征在于:所述基因坐标比对模块中,样本区间包括所述线粒体基因数据库中任一线粒体基因的区域,具体为,样本区间包括所述线粒体基因数据库中任一线粒体基因的至少1bp序列。

7.根据权利要求5所述的装置,其特征在于:所述案例注释模块中,所述重叠比例的具体计算方式为,将样本区间的缺失区间,与线粒体基因数据库中的人类线粒体基因组拷贝数缺失案例的缺失区间进行比较,根据以下公式分别计算样本区间重叠比例和案例重叠比例;

8.根据权利要求5-7任一项所述的装置,其特征在于:所述GC含量注释模块中,计算人类线粒体基因组参考序列在待分析的样本区间断裂点附近的GC含量,具体包括,计算样本区间断裂点的5’端到上游120bp的GC含量,以及样本区间断裂点的3’端到下游120bp的GC含量;若上游基因组长度小于120bp,则计算样本区间断裂点的5’端到线粒体基因组起点的GC含量;若下游基因组长度小于120bp,则计算样本区间断裂点的3’端到线粒体基因组终点的GC含量;

9.一种注释人类线粒体基因组的装置,其特征在于:所述装置包括存储器和处理器;

10.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的注释人类线粒体基因组的方法。

...

【技术特征摘要】

1.一种注释人类线粒体基因组的方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的方法,其特征在于:所述基因坐标比对步骤中,样本区间包括所述线粒体基因数据库中任一线粒体基因的区域,具体为,样本区间包括所述线粒体基因数据库中任一线粒体基因的至少1bp序列。

3.根据权利要求1所述的方法,其特征在于:所述案例注释步骤中,所述重叠比例的具体计算方式为,将样本区间的缺失区间,与线粒体基因数据库中的人类线粒体基因组拷贝数缺失案例的缺失区间进行比较,根据以下公式分别计算样本区间重叠比例和案例重叠比例;

4.根据权利要求1-3任一项所述的方法,其特征在于:所述gc含量注释步骤中,计算人类线粒体基因组参考序列在待分析的样本区间断裂点附近的gc含量,具体包括,计算样本区间断裂点的5’端到上游120bp的gc含量,以及样本区间断裂点的3’端到下游120bp的gc含量;若上游基因组长度小于120bp,则计算样本区间断裂点的5’端到线粒体基因组起点的gc含量;若下游基因组长度小于120bp,则计算样本区间断裂点的3’端到线粒体基因组终点的gc含量;

5.一种注释人类线粒体基因组的装置,其特征在于:包括基因坐标比对模块、复制起点标记模块、案例注释模块、gc含量注释模块、重复序列注释模块和人类线粒体基因组拷贝数缺失注释模块;

【专利技术属性】
技术研发人员:黄凯窦浩宇刘永初燕攀刘阳李阳
申请(专利权)人:深圳雅济科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1