【技术实现步骤摘要】
一种基因变异分析方法及系统
[0001]本公开涉及基因测序
,尤其涉及一种基因变异分析方法及系统。
技术介绍
[0002]模糊测序是一种高信息效率的测序方法,能够快速检测多种基因变异。常见的模糊测序方法为:双色2+2模糊测序,即在对核酸样品进行测序的过程中,使用两份反应液,每份反应液包含两种不同碱基的核苷酸底物分子,且两种核苷酸分别标记不同颜色的荧光基团;其中一份反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸与待测核苷酸序列上的另外两种碱基互补。两份反应液循环加入,每次反应完成后检测荧光信号,得到测序信号,通过预设编码方式对测序信号进行编码后,得到核酸样品的模糊序列,利用常规生物信息学软件即可将其比对到编码后的参考基因序列上,进而检测基因变异。
[0003]专利技术人发现,在通过双色2+2模糊测序检测SNV(single
‑
nucleotide variation,单核苷酸变异)时,受编码方式的影响,在基因变异改变了碱基的位点映射的相对位置关系时,容易产生错误比对结果,得到错误的基因变异类型,使得基因变异分析的结果不够准确。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种基因变异分析方法及系统,能够提升双色2+2模糊测序检测SNV改变碱基的位点映射的相对位置关系的情况下的准确性。
[0005]第一方面,本公开实施例提供了一种基因变异分析方法,采用如下技术方案:
[0006]所述基因变异分析方法包括: />[0007]根据第一碱基组合对核酸样品进行双色2+2模糊测序,获取核酸样品的测序信号;
[0008]对所述测序信号进行编码得到待分析模糊序列,对参考基因组进行编码得到参考基因序列;
[0009]将所述待分析模糊序列与所述参考基因序列进行比对,得到第一比对结果;
[0010]根据第一比对结果,从所述参考基因序列中选择参考子基因序列,所述参考子基因序列包括的碱基位置与所述第一比对结果包括的碱基位置至少部分重叠;
[0011]根据第二碱基组合,对所述待分析模糊序列进行拆分,得到第一待分析模糊半序列和第二待分析模糊半序列;
[0012]根据第二碱基组合,对所述参考子基因序列进行拆分,得到第一参考子基因半序列和第二参考子基因半序列;
[0013]将第一待分析模糊半序列与对应的第一参考子基因半序列进行比对,得到第二比对结果,将第二待分析模糊半序列与对应的第二参考子基因半序列进行比对,得到第三比对结果;
[0014]根据所述第二比对结果和所述第三比对结果,得到基因比对结果。
[0015]可选地,所述第一比对结果包括的碱基位置为所述参考基因序列的第a个到第b个碱基;
[0016]所述根据第一比对结果,从所述参考基因序列中选择参考子基因序列,包括:从所述参考基因序列中选择第c个到第d个碱基作为所述参考子基因序列;其中,a≤c≤b,或,c≤a≤d。
[0017]可选地,c和d的取值满足:覆盖所述待分析模糊序列上已知变异的位置,和/或,覆盖所述第一比对结果中质量较高的部分或较为可信的部分。
[0018]可选地,所述第一比对结果包括的碱基位置为所述参考基因序列的第a个到第b个碱基;
[0019]所述根据第一比对结果,从所述参考基因序列中选择参考子基因序列,包括:从所述参考基因序列中选择第c个到第d个碱基作为所述参考子基因序列;其中,c≤a,且b≤d。
[0020]可选地,碱基组合包括MK、RY和WS;所述第一碱基组合为所述碱基组合中的一种,所述第二碱基组合为所述碱基组合中另外两种之一;其中,M代表碱基A、C;K代表碱基T、G;R代表碱基A、G;Y代表碱基C、T;W代表碱基A、T;S代表碱基C、G。
[0021]可选地,所述基因变异分析方法还包括:获取所述第一参考子基因半序列和所述第二参考子基因半序列的位点映射;
[0022]所述第二比对结果包括所述第一待分析模糊半序列与所述第一参考子基因半序列中的碱基对应关系,以及对应的位点映射;
[0023]所述第三比对结果包括所述第二待分析模糊半序列与所述第二参考子基因半序列中的碱基对应关系,以及对应的位点映射。
[0024]可选地,所述根据所述第二比对结果和所述第三比对结果,得到基因比对结果,包括:
[0025]根据所述第二比对结果中的位点映射,以及,所述第三比对结果中的位点映射,将所述第二比对结果和所述第三比对结果以预设合并方式进行合并,得到所述基因比对结果。
[0026]可选地,所述预设合并方式包括:
[0027]将基因比对结果初始化为空;
[0028]找到第二比对结果和第三比对结果中位点映射最小的目标碱基,将目标碱基及其在所述第二比对结果或所述第三比对结果中的比对结果写入所述基因比对结果中;
[0029]从所述目标碱基所在的比对结果中删除所述目标碱基;
[0030]判断目标碱基所在的比对结果之后是否有一个插入,如有,将插入也写入所述基因比对结果中;
[0031]从所述目标碱基所在的比对结果中删除所述目标碱基之后的插入;
[0032]返回执行找到第二比对结果和第三比对结果中位点映射最小的目标碱基的步骤,直至第二比对结果和第三比对结果中的所有碱基均已写入所述基因比对结果中。
[0033]可选地,所述基因变异分析方法还包括:从所述基因比对结果中重新提取出新的待分析模糊序列,以及新的参考子基因序列;对所述新的待分析模糊序列和所述新的参考子基因序列进行比对,得到最终比对结果。
[0034]第二方面,本公开实施例还提供了一种基因变异分析系统,采用如下技术方案:
[0035]所述基因变异分析系统包括:
[0036]测序模块,用于根据第一碱基组合对核酸样品进行双色2+2模糊测序,获取核酸样品的测序信号;
[0037]编码模块,用于对所述测序信号进行编码得到待分析模糊序列,对参考基因组进行编码得到参考基因序列;
[0038]第一比对模块,用于将所述待分析模糊序列与所述参考基因序列进行比对,得到第一比对结果;
[0039]子序列选择模块,用于根据第一比对结果,从所述参考基因序列中选择参考子基因序列,所述参考子基因序列包括的碱基位置与所述第一比对结果包括的碱基位置至少部分重叠;
[0040]序列拆分模块,用于根据第二碱基组合,对所述待分析模糊序列进行拆分,得到第一待分析模糊半序列和第二待分析模糊半序列,根据第二碱基组合,对所述参考子基因序列进行拆分,得到第一参考子基因半序列和第二参考子基因半序列;
[0041]第二比对模块,用于将第一待分析模糊半序列与对应的第一参考子基因半序列进行比对,得到第二比对结果,将第二待分析模糊半序列与对应的第二参考子基因半序列进行比对,得到第三比对结果;
[0042]结果整合模块,用于根据所述第二比对结果和所述第三比对结果,得到基因比本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基因变异分析方法,其特征在于,包括:根据第一碱基组合对核酸样品进行双色2+2模糊测序,获取核酸样品的测序信号;对所述测序信号进行编码得到待分析模糊序列,对参考基因组进行编码得到参考基因序列;将所述待分析模糊序列与所述参考基因序列进行比对,得到第一比对结果;根据第一比对结果,从所述参考基因序列中选择参考子基因序列,所述参考子基因序列包括的碱基位置与所述第一比对结果包括的碱基位置至少部分重叠;根据第二碱基组合,对所述待分析模糊序列进行拆分,得到第一待分析模糊半序列和第二待分析模糊半序列;根据第二碱基组合,对所述参考子基因序列进行拆分,得到第一参考子基因半序列和第二参考子基因半序列;将第一待分析模糊半序列与对应的第一参考子基因半序列进行比对,得到第二比对结果,将第二待分析模糊半序列与对应的第二参考子基因半序列进行比对,得到第三比对结果;根据所述第二比对结果和所述第三比对结果,得到基因比对结果。2.根据权利要求1所述的基因变异分析方法,其特征在于,所述第一比对结果包括的碱基位置为所述参考基因序列的第a个到第b个碱基;所述根据第一比对结果,从所述参考基因序列中选择参考子基因序列,包括:从所述参考基因序列中选择第c个到第d个碱基作为所述参考子基因序列;其中,a≤c≤b,或,c≤a≤d。3.根据权利要求2所述的基因变异分析方法,其特征在于,c和d的取值满足:覆盖所述待分析模糊序列上已知变异的位置,和/或,覆盖所述第一比对结果中质量较高的部分或较为可信的部分。4.根据权利要求1~3任一项所述的基因变异分析方法,其特征在于,所述第一比对结果包括的碱基位置为所述参考基因序列的第a个到第b个碱基;所述根据第一比对结果,从所述参考基因序列中选择参考子基因序列,包括:从所述参考基因序列中选择第c个到第d个碱基作为所述参考子基因序列;其中,c≤a,且b≤d。5.根据权利要求1所述的基因变异分析方法,其特征在于,碱基组合包括MK、RY和WS;所述第一碱基组合为所述碱基组合中的一种,所述第二碱基组合为所述碱基组合中另外两种之一;其中,M代表碱基A、C;K代表碱基T、G;R代表碱基A、G;Y代表碱基C、T;W代表碱基A、T;S代表碱基C、G。6.根据权利要求1所述的基因变异分析方法,其特征在于,还包括:获取所述第一参考子基因半序列和所述第二参考子基因半序列的位点映射;所述第二比对结果包括所述第一待分析模糊半序列与所述第一参考子基因半序列中的碱基对应关系,以及对应的位点映射;所述第三比对结果包括所述第二待分析模糊半序列与所述第二参考子基因半序列中的碱基对应关系,以及对应的位点映射;...
【专利技术属性】
技术研发人员:周文雄,石磊,
申请(专利权)人:赛纳生物科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。