基于CUT&Tag技术分析DNA和蛋白质互作的方法技术

技术编号:29226326 阅读:26 留言:0更新日期:2021-07-10 01:11
本发明专利技术涉及表观遗传学领域,具体涉及基于CUT&Tag技术分析DNA和蛋白质互作的方法。本发明专利技术通过将高通量测序后的Raw Data进行处理(过滤接头和低质量的Read)获得高质量的Clean Data,将Clean Data比对到参考基因组获得详细的比对信息,利用MACS2软件检测Peak,并对检测到的Peak进行关联基因注释、关联基因富集分析、motif分析、样本间差异分析(多个样本)等分析,提供了一整套基于CUT&Tag技术的高通量测序分析流程方法,其使用合理的并行设计,可快速实现大样本量的CUT&Tag数据分析。速实现大样本量的CUT&Tag数据分析。速实现大样本量的CUT&Tag数据分析。

【技术实现步骤摘要】
基于CUT&Tag技术分析DNA和蛋白质互作的方法


[0001]本专利技术涉及表观遗传学领域,具体涉及基于CUT&Tag技术分析DNA和蛋白质互作的方法

技术介绍

[0002]在几乎所有的细胞生命活动中,例如DNA复制,基因的表达、调控、重组和修复,RNA转录、翻译、修饰等都涉及到DNA与蛋白质之间的相互作用。早在十九世纪后期,科学家就通过显微镜观察到了蛋白质与DNA直接的相互作用,此后,科学家专利技术了许多方法来深入探索蛋白质结合并控制DNA的作用机制:凝胶迁移实验(EMSA)、足迹实验(foot

printing assay)、甲基化干扰实验、染色质免疫共沉淀技术(ChIP)、Southwestern杂交等。其中,ChIP与高通量测序结合的技术ChIP

seq由于能在全基因组范围内真实、完整地检测与组蛋白、转录因子等互作的DNA区段而成为目前全基因组水平研究DNA与蛋白质相互作用的标准实验技术。
[0003]但ChIP

seq及其变异受交联作用影响,信号低、背景高,因为产量低所以需要大量的细胞,且实验重复性差。这些技术上的困难限制了ChIP

seq技术在表观基因组等领域的进一步发展。CUT&Tag技术于2019年发表于Nature Communications杂志(CUT&Tag for efficient epigenomic profiling of small samples and single cells),该方法使用了由高活性Tn5转座酶

ProteinA(pA

Tn5)融合蛋白和测序适配器组成的转座体,ProteinA可在细胞内直接结合抗体,抗体结合在目的蛋白上,连带的Tn5转座酶将切割目的蛋白附近的DNA序列,并将DNA片段直接脸上测序用接头,PCR后可直接用于高通量测序。CUT&Tag能够对极少量甚至单细胞进行分析,可以用极低的背景分析各种染色质成分,这种简单、低成本的方法将极大低促进生物学各个领域中的表观遗传学研究。

技术实现思路

[0004]本明的目的是提供一种基于CUT&Tag技术的高效快速的分析DNA和蛋白质互作的方法。
[0005]为了实现本专利技术目的,本专利技术在充分调研了CUT&Tag技术背景以及对大量公开发表、项目实测的CUT&Tag数据的分析的基础上,通过合理的流程设计,得到本专利技术的技术方案。
[0006]具体而言,本专利技术提供一种分析DNA和蛋白质互作的方法,包括:
[0007]获得基于CUT&Tag技术的待分析样本的高通量测序数据Raw Data,并对Raw Data进行过滤得到高质量的Clean Data;
[0008]将Clean Data与参考基因组进行比对,获得Reads在基因组上的位置信息,选择双端唯一比对到参考基因组上的Reads并过滤比对到线粒体DNA上的Reads、去除冗余的Reads,得到有效Reads比对结果;
[0009]基于有效Reads比对结果,统计总体比对效率、唯一比对效率、MT比例、冗余Reads
比例,并绘制Read插入片段分布图、Read在基因TSS/TES附近的富集信号图;
[0010]基于有效Reads比对结果,选用MACS2软件进行Peak富集峰的提取;
[0011]对提取到的富集峰进行关联基因注释;
[0012]对注释到基因Promoter区的关联基因进行GO/KEGG富集分析;
[0013]对提取到的富集峰,进行motif分析。
[0014]得到高质量的Clean Data是得到一切结果的基石。根据CUT&Tag技术的原理,CUT&Tag主要切割无核小体区域(NFR,<100bp)和单核小体区域(mononuclosome,~200bp)。当选择高通量测序策略PE150时,无核小体区域的DNA片段会测到3

接头。通过对大量真实实验数据的分析,发现部分数据同样也会测序到5

接头。因此采用了同时过滤3

接头和5

接头的过滤方式保证数据质量。
[0015]作为优选,所述的待分析样本包括实验样本和对照样本,所述实验样本和对照样本为不同实验条件下使用根据目标蛋白设计的抗体进行CUT&Tag实验的样本,IgG阴性对照样本为使用与抗体同种属的IgG抗体的CUT&Tag实验样本,阳性对照样本为使用HEK293T抗体对人类细胞进行CUT&Tag实验获得的样本。设置阴性对照的目的是检验抗体的特异性,设置阳性对照的目的是验证同批次的CUT&Tag实验成功与否。
[0016]通过将实验样本、对照样本、IgG阴性对照样本、阳性对照样本分别比对到参考基因组上。CUT&Tag实验建库过程中的PCR扩增、测序和比对偏好、染色质结构和基因拷贝数变异会使测序数据在基因组上会呈现区域偏好,为准确鉴定Peak区域,需对比对结果进行进一步处理,包括:选择唯一比对到参考基因组上的数据、过滤比对到线粒体DNA上的数据、过滤冗余数据。
[0017]所述总体比对效率、唯一比对效率、线粒体DNA比对率、冗余度影响识别Peak峰的有效数据量,总体比对效率越高越好、唯一比对效率越高越好、线粒体DNA比对率越低越好、冗余度越低越好。CUT&Tag实验主要切割无核小体区域和单核小体区域,故CUT&Tag测序数据的插入片段会呈现周期性分布。转录因子一般结合在基因转录起始位点上游,故测序数据一般会在基因的TSS附近有明显富集。更具体地,所述实验样本、对照样本、IgG阴性对照样本、阳性对照样本的插入片段分布图均应出现周期性分布的规律,测序数据均应在基因的TSS附近有明显富集。
[0018]作为优选,当含有两个以上待分析样本时,基于有效Reads比对结果,统计比对效率、唯一比对效率、MT比例、冗余Reads的比例,并绘制Read插入片段分布图、Read在基因TSS/TES附近的富集信号图、样本之间的相关性图。
[0019]作为优选,当含有两个以上待分析样本(如实验样本和对照样本)时,可进行差异Peak分析,分析不同实验条件下目标蛋白与DNA结合的差异。
[0020]具体的,所述方法还包括:
[0021]基于提取到的富集峰,做样本间差异Peak分析,并对得到的差异Peak进行关联基因注释、关联基因富集分析、差异Peak的motif分析。
[0022]作为优选,所述对Raw Data进行过滤得到高质量的Clean Data具体包括:
[0023]利用cutadapt软件去接头,两个核小体之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分析DNA和蛋白质互作的方法,其特征在于,包括:获得基于CUT&Tag技术的待分析样本的高通量测序数据Raw Data,并对Raw Data进行过滤得到高质量的Clean Data;将Clean Data与参考基因组进行比对,获得Reads在基因组上的位置信息,选择双端唯一比对到参考基因组上的Reads并过滤比对到线粒体DNA上的Reads、去除冗余的Reads,得到有效Reads比对结果;基于有效Reads比对结果,统计总体比对效率、唯一比对效率、MT比例、冗余Reads比例,并绘制Read插入片段分布图、Read在基因TSS/TES附近的富集信号图;基于有效Reads比对结果,选用MACS2软件进行Peak富集峰的提取;对提取到的富集峰进行关联基因注释;对注释到基因Promoter区的关联基因进行GO/KEGG富集分析;对提取到的富集峰,进行motif分析。2.根据权利要求1所述的方法,其特征在于,当含有两个以上待分析样本时,基于有效Reads比对结果,统计比对效率、唯一比对效率、MT比例、冗余Reads的比例,并绘制Read插入片段分布图、Read在基因TSS/TES附近的富集信号图、样本之间的相关性图。3.根据权利要求1或2所述的方法,其特征在于,当含有两个以上待分析样本时,所述方法还包括:基于提取到的富集峰,做样本间差异Peak分析,并对得到的差异Peak进行关联基因注释、关联基因富集分析、差异Peak的motif分析。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述对Raw Data进行过滤得到高质量的Clean Data具体包括:利用cutadapt软件去接头,去掉长度小于35bp的reads;去除N的比例大于10%的Reads;去除质量值Q≤10的碱基数占整条Read的50%以上的Reads。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述有效Reads比对结果的获得方法具体包括:选择Bowtie2将Clean Data与参考基因组进行比对,使用严格比对
‑‑
very

sensitive

local,设置双端比对最大片段长度为700;选择sambamba软件选择唯一比对到参考基因组上的Reads,即双端Reads比对到参考基因组上合适的位置,且比对质量值>=30的比对结果;选择sambamba软件过滤比对到线粒体DNA上的Reads;选择sambamba软件的markdup程序去除冗余的Reads;选择sambamba软件对去冗余得到的BAM格式文件进行排序,用于后续分析。6.根据权利要求1

5中任一项所述的方法,其特征在于,所述总体比对效率定义为比对到参考基因组...

【专利技术属性】
技术研发人员:郑洪坤聂佩瑶刘敏张雪川
申请(专利权)人:北京百迈客生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1