一种高通量测序数据匹配方法组成比例

技术编号:12852645 阅读:140 留言:0更新日期:2016-02-11 16:52
本发明专利技术属于在分子生物学技术领域,本发明专利技术属于分子生物信息检测领域,具体涉及在已有高通量DNA测序数据匹配基础上,基于环境平台修正因子增加测序数据的匹配数量,以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本发明专利技术包括:获取测序数据;初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集;设置基于实验平台和环境的匹配修正因子k;用基于修正因子k的模型对匹配失败集中数据重新匹配;提取测序数据匹配失败集中成功匹配数据。本发明专利技术在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。

【技术实现步骤摘要】

本专利技术属于分子生物学
以及信息
,特别涉及染色质测序数据分析
,具体是指。
技术介绍
DNA测序(DNAsequencing,或译DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。高通量DNA测序技术直接对靶核苷酸序列进行测序,然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处,从而获取相关基因的检测信息。高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而,由于检测过程中存在序列匹配环节,其序列匹配环节直接影响着信息检测的最终效果。此外,高通量DNA测序技术有能力一次性地检测全基因组的基因信息,因此,高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。但是,高通量DNA测序技术为了保证检测数据有效覆盖全基因组上的所有信息,必须产生更高通量的检测数据。因此,对高通量DNA测序技术而言,其序列匹配环节的成功率更是与信息检测效果密切相关。由于个体间差异和测序误差的存在,当前的高通量DNA测序数据序列匹配方法,都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此,在序列匹配过程中,都允许测量序列和参考基因组中的参考序列间存在一定数量的误配。当误配过量出现时,才认为测量序列和参考序列不匹配。但是,仍有部分数据因找不到相匹配的参考序列而被放弃,影响了测序数据的利用率。实际上,高通量DNA测序数据中测序误差的发生是有规律的,即每个测序读数中,越往后的位置,发生测序错误的概率越高;不同测序位置上,发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同,实验环境的不同而变化的。因此,针对特定的测序实验,可以设置基于实验平台和环境的修正因子,以提高测序数据的利用率。
技术实现思路
本专利技术的目的在于提供一种基于环境平台修正因子对匹配模式进行调整,以提高测序数据的匹配映射成功率和测序数据的利用率的高通量DNA测序数据匹配增强方法。本专利技术是通过以下方案来实现上述专利技术目的: ,其特征在于,包括如下步骤: 1)获取测序数据; 2)初步匹配高通量DNA测序数据 利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合; 3)设置基于实验平台和环境的匹配修正因子k; 对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则; 4)用基于修正因子k的模型对匹配失败集中数据重新匹配; 用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。本专利技术的有益效果在于:本专利技术基于环境平台修正因子对匹配模式进行调整技术,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。【具体实施方式】 以下结合实施例对本专利技术技术方案做进一步说明,所述的实施例是对本专利技术的解释而不是限定。本专利技术方法【具体实施方式】具体如下: 基于概率的,包括下列步骤: 1)获取测序数据; 高通量测序数据的获得,可以采用现有的各种方法(如双脱氧链终止法),454生物科学的方法或者焦磷酸测序法来获得; 2)初步匹配高通量DNA测序数据 利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;这里的常规方法包括其中的匹配模型和参数设置均采用常规设置。3)设置基于实验平台和环境的匹配修正因子k ; 对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;这个因子可以基于各种平台的公开数据或者原先的经验数据获得。4)用基于修正因子k的模型对匹配失败集中数据重新匹配; 用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。扩大匹配成功数据集。本专利技术的有益效果在于:本专利技术基于环境平台修正因子对匹配模式进行调整,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。【主权项】1.,其特征在于,包括如下步骤: 1)获取测序数据; 2)初步匹配高通量DNA测序数据; 利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合; 3)设置基于实验平台和环境的匹配修正因子k; 对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则; 4)用基于修正因子k的模型对匹配失败集中数据重新匹配; 用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配; 5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。【专利摘要】本专利技术属于在分子生物学
,本专利技术属于分子生物信息检测领域,具体涉及在已有高通量DNA测序数据匹配基础上,基于环境平台修正因子增加测序数据的匹配数量,以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本专利技术包括:获取测序数据;初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集;设置基于实验平台和环境的匹配修正因子k;用基于修正因子k的模型对匹配失败集中数据重新匹配;提取测序数据匹配失败集中成功匹配数据。本专利技术在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。【IPC分类】G06F19/22【公开号】CN105320850【申请号】CN201410376285【专利技术人】张艺, 何飞, 马丰收, 邹晓文 【申请人】晶能生物技术(上海)有限公司【公开日】2016年2月10日【申请日】2014年8月3日本文档来自技高网
...

【技术保护点】
一种高通量测序数据匹配方法,其特征在于,包括如下步骤:1)获取测序数据;2)初步匹配高通量DNA测序数据;利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;3)设置基于实验平台和环境的匹配修正因子k;对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;4)用基于修正因子k的模型对匹配失败集中数据重新匹配;用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配;5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。

【技术特征摘要】

【专利技术属性】
技术研发人员:张艺何飞马丰收邹晓文
申请(专利权)人:晶能生物技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1