一种遗传图谱构建的处理方法和装置制造方法及图纸

技术编号:8453191 阅读:211 留言:0更新日期:2013-03-21 18:04
本发明专利技术公开了一种构建遗传图谱的处理方法和装置。其中,构建遗传图谱的处理方法包括:接收多个样本的SNP(单核苷酸多态性)数据;鉴别基因组上发生重组的区域;将未发生重组的SNP位点合并成一个标记;通过两点测验法构建基因组片段的连锁群;计算已知顺序的标记之间的重组率及每一个连锁群内未知顺序的基因组片段之间的重组率;根据标记之间及基因组片段之间的重组率对每一个连锁群内的基因组片段进行排序;计算排好序的相邻标记之间的重组率并转换成作图距离,得到基因组遗传图谱及排好顺序的基因组片段。本发明专利技术提供了一种适用于高通量测序数据的高效而精细的遗传图谱构建方法,同时提供了基因组组装成的大片段序列排序构建伪染色体的有效方案。

【技术实现步骤摘要】

本专利技术涉及生物信息学领域,具体而言,涉及一种遗传图谱构建的处理方法和装置
技术介绍
遗传图谱的构建建立在遗传标记的基础之上,以前我们利用限制性酶切位点多态性及简单重复序列多态性等标记进行遗传作图。这些标记的数目一般都在几千到一万之间。随着基因组测序技术的进步,单细胞测序技术迅速发展并日益成熟,我们可以一次性得到数以百万计的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP),分子标记的增多使得遗传标记的密度有了很大的提高。经典的遗传图谱构建方法和软件显得束手无策,因为基于隐马氏链模型的最大似然方法计算复杂,需要很高的时间成本。这些问题目前尚未提出有效的解决方案。针对这些问题,我们通过把遗传标记整合成标记束,然后对标记束进行连锁分析, 用一种启发式的算法对标记束排序,在短时间内得到精细的遗传图谱。
技术实现思路
本专利技术的主要目的在于提供一种遗传图谱构建的处理方法和装置,以解决现有技术中无法使用更大数量级遗传标记构建更精细的遗传图谱的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种遗传图谱构建的处理方法,所述的方法包括下述步骤接收多个样本的SNP (单核苷酸多态性)数据;鉴别基因组上发生重组的区域,将未发生重组的SNP位点合并成一个标记;通过两点测验法构建基因组片段的连锁群;计算已知顺序的标记之间的重组率及每一个连锁群内未知顺序的基因组片段之间的重组率;根据标记之间及基因组片段之间的重组率对每一个连锁群内的基因组片段进行排序;依次计算排好序的连锁群内相邻标记之间的重组率并转换成作图距离,得到基因组遗传图谱及排好顺序的基因组组装成的基因组片段。前述的一种遗传图谱构建的处理方法,其中所述的鉴别基因组上发生重组的区域,将未发生重组的SNP位点合并成一个标记包括每一个基因组片段上有许多个SNP位点,根据SNP位点在不同样本之间的组合形式判定重组发生的位置;按照发生重组的位置将一个基因组片段分割成几个区域,每个区域内的SNP可以整体当作一个标记或者说标记束。前述的一种遗传图谱构建的处理方法,其中所述的通过两点测验法构建基因组片段的连锁群包括遗传学上通常用或然率的常用对数作为标准的衡量方法,该值的对数值称为LOD值或对数优势比根据两个非此即彼的假设,计算数据的整体或然性,以确定两个基因组片段或是按一定的重组率而相互连锁的可能性或是互不连锁的可能性;这两种可能性之比,是基因座实际上为连锁的可能性;这个比率的常用对数就是对数优势比;为了确定两对基因之间是否存在连锁,一般要求或然比大于1000 :1,即L0D>3 ;而要否定连锁存在,则要求或然小于1:100,即L0D〈-2 ;通过计算不同遗传标记之间的LOD值,来确定基因组片段是否连锁从而构建连锁群。前述的一种遗传图谱构建的处理方法,其中所述的计算已知顺序的标记之间的重组率及每一个连锁群内未知顺序的基因组片段之间的重组率包括每一个基因组片段上会包含一个或者多个遗传标记,计算每两个基因组片段内每对遗传标记的重组率,并按照每个标记所占据基因组片段的长度分配每对遗传标记之间的重组率占基因组片段之间重组率的比重;根据每对遗传标记之间的重组率极其比重计算基因组片段之间的重组率;依次计算每两个基因组片段之间的重组率。前述的一种遗传图谱构建的处理方法,其中所述的根据标记之间及基因组片段之间的重组率对每一个连锁群内的基因组片段进行排序包括根据遗传学规律,重组率越大的基因组片段距离越远,从而对每个连锁群内的基因组片段进行排序得到连锁群内基因组片段的顺序。前述的一种遗传图谱构建的处理方法,其中所述的依次计算排好序的连锁群内相邻标记之间的重组率并转换成作图距离,得到基因组遗传图谱及排好顺序的基因组组装成的基因组片段包括获取每个连锁群内部的基因组片段的顺序及遗传标记的顺序;利用相邻的2个标记在样本里的不同组合依次计算各连锁群内部相邻遗传标记之间的重组率;通过作图公式将相邻遗传标记之间的重组率转换成作图距离;根据作图距离依次排列遗传标记即可得到基因组的遗传图谱及排好顺序的基因组片段。为了实现上述目的,根据本专利技术的另一方面,提供了一种构建遗传图谱的处理装置,该处理装置用于执行上述本专利技术提供的构建遗传图谱的处理方法。为了实现上述目的,根据本专利技术的另一方面,提供了一种遗传图谱的处理装置,包括接收单元,用于接收多个样本SNP数据;判定单元,与接收单元相连接,用于判定重组位点,将SNP整合成标记束;构建单元,与判定单元相连接,用于构建连锁群;计算单元,与构建单元相连接,计算每一个连锁群内遗传标记及基因组片段间的重组率;排序单元,与计算单元相连接,用于连锁群内基因组片段的顺序排列;转换单元,与排序单元相连接,与计算单元结合使用,用于将重组率转换成作图距离;输出单元,与转换单元相连接,用于输出遗传图谱信息及按顺序排列的基因组片段。进一步地,计算单元包括获取子单元,用于获取SNP标记束在各个样本中的形态信息,包括标记间发生重组个体数与未发生重组个体数;重组率计算子单元,用于计算两个标记之间的重组率;比重分配单元,用于对基因组片段间的SNP标记对的重组率占基因组片段重组率的比重;整合子单元,用于整合两个基因组片段间SNP标记对的重组率及分配比重得到基因组片段间的重组率。通过本专利技术,通过在多个样本的SNP数据基础上判定重组位点及区域,将基因组片段上的SNP位点整合成一个遗传标记(标记束),通过该步骤,减少了标记数目为后续步骤计算降低了难度,同时能够得到较准确的重组位点或者区域;根据基因组片段上的遗传标记对基因组片段进行连锁分析构建连锁群,进一步降低了后续计算的难度;通过计算连锁群内的基因组片段间的重组率对连锁群内的基因组片段进行排序并进一步计算相邻标记间的重组率转换成遗传距离得到基因组遗传图谱及排好序的基因组片段,实现了在现有技术基础上使用更多的标记绘制更准确精细的遗传图谱,解决了现有方法的缺陷和不足,同时能够得到确切的重组发生的位点及区域,并且发现发生重组事件频繁的重组热点,在构建图谱的过程中还能够给组装得到的杂乱的基因组片段进行整理排序得到伪染色体信息。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I是根据本专利技术实施例的处理装置的示意图;图2是根据本专利技术实施例的处理方法的流程图。具体实施方式下面将参考附图并结合实施例来详细说明本专利技术。本专利技术实施例提供了一种遗传图谱构建的处理装置,以下对本专利技术实施例所提供的遗传图谱构建的处理装置进行介绍。图I是根据本专利技术实施例的处理装置的示意图,如图I所示,该实施例的处理装置包括接收单元10、判定单元20、构建单元30、计算单元40、排序单元50、转换单元60、输出单元70。具体地,接收单元10,用于接收多个样本SNP数据;判定单元20,与接收单元10相连接,用于判定重组位点,将SNP整合成标记束;构建单元30,与判定单元20相连接,用于构建连锁群;计算单元40,与构建单元30相连接,计算每一个连锁群内遗传标记及基因组片段间的重组率;排序单元50,与计算单元40相连接,用于连锁群内基因组片段的顺序排列;转换单元60,与排本文档来自技高网...

【技术保护点】
一种基于高通量测序数据构建遗传图谱的处理方法,其特征在于,包括:接收多个样本的SNP(单核苷酸多态性)数据;鉴别基因组上发生重组的区域,将未发生重组的SNP位点合并成一个标记;通过两点测验法构建基因组片段的连锁群;计算已知顺序的标记之间的重组率及每一个连锁群内未知顺序的基因组片段之间的重组率;根据标记之间及基因组片段之间的重组率对每一个连锁群内的基因组片段进行排序;依次计算排好序的连锁群内相邻标记之间的重组率并转换成作图距离,得到基因组遗传图谱及由排好顺序的基因组组装成的基因组片段。

【技术特征摘要】

【专利技术属性】
技术研发人员:孔关义王海龙朱红梅周广宇
申请(专利权)人:北京诺禾致源生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1