一种高通量测序数据匹配方法组成比例

技术编号：12852645 阅读：157 留言：0更新日期：2016-02-11 16:52

本发明专利技术属于在分子生物学技术领域，本发明专利技术属于分子生物信息检测领域，具体涉及在已有高通量DNA测序数据匹配基础上，基于环境平台修正因子增加测序数据的匹配数量，以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本发明专利技术包括：获取测序数据；初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集；设置基于实验平台和环境的匹配修正因子k；用基于修正因子k的模型对匹配失败集中数据重新匹配；提取测序数据匹配失败集中成功匹配数据。本发明专利技术在原有高通量DNA测序数据匹配映射基础上，通过评估匹配失败测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于分子生物学
以及信息
，特别涉及染色质测序数据分析
，具体是指。
技术介绍
DNA测序(DNAsequencing,或译DNA定序)是指分析特定DNA片段的碱基序列，也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。高通量DNA测序技术直接对靶核苷酸序列进行测序，然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处，从而获取相关基因的检测信息。高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而，由于检测过程中存在序列匹配环节，其序列匹配环节直接影响着信息检测的最终效果。此外，高通量DNA测序技术有能力一次性地检测全基因组的基因信息，因此，高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。但是，高通量DNA测序技术为了保证检测数据有效覆盖全基因组上的所有信息，必须产生更高通量的检测数据。因此，对高通量DNA测序技术而言，其序列匹配环节的成功率更是与信息检测效果密切相关。由于个体间差异和测序误差的存在，当前的高通量DNA测序数据序列匹配方法，都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此，在序列匹配过程中，都允许测量序列和参考基因组中的参考序列间存在一定数量的误配。当误配过量出现时，才认为测量序列和参考序列不匹配。但是，仍有部分数据因找不到相匹配的参考序列而被放弃，影响了测序数据的利用率。实际上，高通量DNA测序数据中测序误差的发生是有规律的，即每...

【技术保护点】
一种高通量测序数据匹配方法，其特征在于，包括如下步骤：1）获取测序数据；2）初步匹配高通量DNA测序数据；利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配，将测序数据分为匹配成功和匹配失败两个数据集合；3）设置基于实验平台和环境的匹配修正因子k；对于不同的实验平台和不同的实验环境，设置不同的修正因子k，用于修正匹配规则；4）用基于修正因子k的模型对匹配失败集中数据重新匹配；用修正因子k修正匹配规则，对匹配失败数据集中的数据进行匹配；5）将步骤4中匹配成功的数据集合加入匹配成功数据集合中。

【技术特征摘要】

【专利技术属性】
技术研发人员：张艺，何飞，马丰收，邹晓文，
申请(专利权)人：晶能生物技术上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人