Bulk RNA-seq与scRNA-seq的优势和局限性
Bulk RNA-seq
- 20世纪末即芯片技术后的又一个突破性技术,之后被广泛应用,逐渐替代芯片
- 评估测量一个大群体内所有细胞的平均表达量水平
- 适用于比较转录组学,如不同物种相同组织的不同样本间的转录表达差异比较;或者用于评估疾病等表达量特征
- 不适用于研究系统的异质性,如早期胚胎发育、复杂组织(脑)
- 不能提供基因表达量的随机特征
scRNA-seq
- 2009年出现 (Tang et al. 2009)
- 伴随着新的protocols和测序成本的降低,2014年左右被广泛推广
- 适用于检测一群细胞的表达量分布水平;细胞特异性变化等(如鉴定细胞类型、细胞应激的异质性,基因表达的随机性、推测细胞间的基因调控网络
- 数据集从102~ 10 8细胞,且逐年增长
- 目前的使用的protocols:SMART-seq2 (Picelli et al. 2013), CELL-seq (Hashimshony et al. 2012) and Drop-seq (Macosko et al. 2015)
- 商业平台:Fluidigm C1, Wafergen ICELL8 and the 10X Genomics Chromium
- Bulk RNA-seq的一些方法也适合于scRNA-seq,大多情况需要新的方法
单细胞RNA测序流程
分析方法
scRNA-seq上游分析方法与bulk 相同,对测序数据进行质控、比对、比对结果的质控(黄色部分),接着是细胞质控、标准化,这一部分与bulk有相同的也有不同的地方,下游分析就是解释实际生物学问题,包括差异分析、聚类、网络分析等,所用的方法一般都是scRNA特有的算法。
scRNA-seq 分析的综述:(Stegle, Teichmann, and Marioni 2015)
- Falco :云端处理scRNA-seq分析.
- SCONE (Single-Cell Overview of Normalized Expression), scRNA-seq质控和标准化的R包
- Seurat :scRNA-seq分析的常用的四大R包之一,包括对数据的质控、分析等
- ASAP (Automated Single-cell Analysis Pipeline) :scRNA-seq交互分析的网络平台
挑战
bulk RNA-seq与scRNA-seq最主要的不同是scRNA-seq的每个测序文库代表一个细胞而不是一群细胞。文库的不同来源于:
- 扩增 (达到1 million倍)
- Gene ‘dropouts’:指一个细胞在一个细胞中是中等表达水平,但是在另一个细胞中没有被检测到
上面的差异主要来自于RNA的起始量很低,因此提高转录本的捕获率、降低扩增偏差是一个热门的研究方向。
实验方法
发展新的scRNA-seq protocol也是一个热门领域,目前已有的方法包括:
- CEL-seq (Hashimshony et al. 2012)
- CEL-seq2 (Hashimshony et al. 2016)
- Drop-seq (Macosko et al. 2015)
- InDrop-seq (Klein et al. 2015)
- MARS-seq (Jaitin et al. 2014)
- SCRB-seq (Soumillon et al. 2014)
- Seq-well (Gierahn et al. 2017)
- Smart-seq (Picelli et al. 2014)
- Smart-seq2 (Picelli et al. 2014)
- SMARTer
- STRT-seq (Islam et al. 2013)
不同的方法实现方式不同,其中定量和捕获是最重要的两个方面
定量有两种类型:
- 全长(full length):
- 致力于实现每个转录本一致的read coverage
- 理论上的一致的coverage很难实现,经常会存在偏差
- 基于标签(tag-based):
- 只捕获RNA的5‘ 端或3’端,
- 可以和UMI(unique molecular identifiers )结合提高定量准确性
- 由于只捕获单端RNA可能会降低比对率
- 很难鉴定isoforms
捕获:
捕获策略决定了测序通量,以及得到细胞的方式和其他信息。常用的捕获策略有:
microwell-based
使用吸液管或激光捕获等方法分离细胞,并将其放置在微流体管中。该方法的优缺点是:
优点是:可以与FACS分选结合使用,从而可以根据细胞表面marker筛选感兴趣的特定类型的细胞,同时在分选时可以拍摄细胞。图像可以用于识别受损细胞或dublets。
缺点是:通量低、耗时费工
microfluidic-based
如Fluidigm’s C1,提供了一个更为集成的系统,用于捕捉细胞和进行建库准备所需的反应。
优点是:通量比microwell-based 高
缺点是:捕获效率低,只有10%的细胞可以被捕获,因此不适用于细胞类型罕见或者输入细胞量少的研究;另外芯片价格相对贵
droplet- based
将每一个细胞封装在一个毫微升的液滴中,并加上一个珠子(bead), bead中含有建库所需的酶和唯一的条形码(barcode),条形码可以将reads来自于哪个细胞关联。因此,所有的液滴都可以汇集起来,排序在一起,然后根据条形码将reads分配给原始细胞。
优点是:通量最高
缺点是:测序成本、低覆盖率 (Ziegenhain et al. 2017)
如何选择合适的平台
如何选择合适的protocols,只有根据研究的生物学问题。如果感兴趣一个组织的组成,那么droplet-based的方法可以得到大量的细胞,或许是最适合的;如果研究的是罕见细胞,并且知道细胞marker,那么结合FACS富集,测少量的细胞也可以实现目的。
全长转录本适合于对不同亚型感兴趣的研究,tagged的protocols可以和UMI结合,适用于基因水平的定量。
内容来自Hemberg lab’s 单细胞课程学习笔记 :
Introduction to single-cell RNA-seq:
https://scrnaseq-course.cog.sanger.ac.uk/website/introduction-to-single-cell-rna-seq.html