ATAC-Seq简介
ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing) 是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang实验室开发的用于研究染色质可及性(通常也理解为染色质的开放性)的方法, 原理是通过转座酶Tn5容易结合在开放染色质的特性,然后对Tn5酶捕获到的DNA序列进行测序。
真核生物的核DNA并不是裸露的,而是与组蛋白结合形成染色体的基本结构单位核小体,核小体再经逐步的压缩折叠最终形成染色体高级结构(如人的DNA链完整展开约2m长,经过这样的折叠就变成了纳米级至微米级的染色质结构而可以储存在小小的细胞核)。而DNA的复制转录是需要将DNA的紧密结构打开,从而允许一些调控因子结合(转录因子或其他调控因子)。这部分打开的染色质,就叫开放染色质,打开的染色质允许其他调控因子结合的特性称为染色质的可及性(chromatin accessibility)。因此,认为染色质的可及性与转录调控密切相关。
开放染色质的研究方法有ATAC-seq以及传统的DNase-Seq及FAIRE-seq等,ATAC-Seq由于所需细胞量少,实验简单,可以在全基因组范围内检测染色质的开放状态,目前已经成为研究染色质开放性的首选技术方法。
Nat Methods, 2013. doi: 10.1038/nmeth.2688. Epub 2013 Oct.
ATAC-Seq与ChIP-Seq的异同
ATAC-Seq与ChIP-Seq的不同的是ATAC-Seq是全基因组范围内检测染色质的开放程度,可以得到全基因组范围内的蛋白质可能结合的位点信息,一般用于不知道特定的转录因子,用此方法与其他方法结合筛查感兴趣的特定调控因子;但是ChIP-Seq是明确知道感兴趣的转录因子是什么,根据感兴趣的转录因子设计抗体去做ChIP实验拉DNA,验证感兴趣的转录因子是否与DNA存在相互作用。ATAC-Seq、ChIP-Seq、Dnase-Seq、MNase-Seq、FAIRE-Seq整体的分析思路一致,找到富集区域,对富集区域进行功能分析。
ChIP-Seq是揭示特定转录因子或蛋白复合物的结合区域,实际是研究DNA和蛋白质的相互作用,利用抗体将蛋白质和DNA一起富集,并对富集到的DNA进行测序。
DNase-Seq、ATAC-Seq、FAIRE-Seq都是用来研究开放染色质区域。DNase-Seq是用的DNase I内切酶识别开放染色质区域,而ATAC-seq是用的Tn5转座酶,随后进行富集和扩增;FAIRE-Seq是先进行超声裂解,然后用酚-氯仿富集。
MNase-Seq是用来鉴定核小体区域。
翻译部分
下面这一部分是对HBC课程中ChIP-Seq Introduction这一节的介绍,主要包括的ChIP-Seq的实验设计和分析方法总体思路。原文链接:https://github.com/hbctraining/In-depth-NGS-Data-Analysis-Course/blob/master/sessionV/lessons/01_Intro_chipseq_and_setup.md。
ChIP-Seq Introduction
学习目标
- 理解ChIP-Seq的实验设计
ChIP-Seq简介
ChIP实验(Chromatin immunoprecipitation)即染色质免疫沉淀,根据DNA与蛋白质相互作用的原理,分离富集与感兴趣的蛋白相互作用的DNA。ChIP-Seq即对分离得到的DNA扩增测序,然后通过分析得到DNA的富集区域也称为peaks,同时可以鉴定过表达的序列motif以及进行功能注释分析。
下面这一部分将会介绍ChIP-Seq数据分析的整个流程,从实验设计到产生原始的测序reads,以及到最后的功能富集分析和motif查找。
实验设计和文库构建
文库构建包括以下5步骤:
- 蛋白质与DNA的交联
- 超声打断DNA链
- 加附有抗体的磁珠用于免疫沉淀
- 解交联,纯化DNA
- DNA片段大小选择和PCR扩增
富集到的DNA片段只有一部分是真实的信号(感兴趣的蛋白结合的DNA区域),这个比例取决于number of active binding sites, the number of starting genomes, and the efficiency of the IP.
ChIP-Seq富集序列存在以下特点:
- 开放染色质区域比紧密区域更易打断;
- 重复序列会出现似乎被富集的现象
- 序列在整个基因组上不均匀分布
因此,ChIP-Seq需要有合适的对照组,对照样本需要满足以下其中一个条件:
- 没有IP(input DAN)
- 没有抗体 (“mock IP”)
- 没有特定的抗体 (IgG “mock IP”)
示例数据介绍
所用到的示例数据是来自于人类胚胎干细胞系(h1-ESC)中Nanog和Pou5f1(Oct4)两个转录因子的结合图谱。这两个转录因子的功能涉及干细胞的多能性,该研究的目标之一是探究这两个转录因子在转录调控中单独和相互的调控作用。
两组重复,每组重复包括3个实验样本信息,共6个样本,数据分析中只用到了12号染色体的信息。
Nanog IP
Pou5f1 IP
Control input DNA
分析流程
下面这幅图给出了整个分析流程,和每一步需要的数据格式,后面会展开介绍。
分析环境配置
这个课程提供了示例数据和分析代码,可以参考这里连接他们的服务器,我没有连接成功,不知道是不是打开方式不对,大家可以尝试下,如果连接成功,这一部分就是配置服务器的环境,准备数据;如果也连接不上可以用自己的数据或者下载公共数据。
参考资料:
ATAC-seq:染色质开放性测序技术
Clifford A. et al. Nature review, 2014
HBC课程V : 01-Introduction to ChIP-Seq