scRNA-seq基础知识扫盲篇

Bulk RNA-seq与scRNA-seq的优势和局限性

Bulk RNA-seq

  • 20世纪末即芯片技术后的又一个突破性技术,之后被广泛应用,逐渐替代芯片
  • 评估测量一个大群体内所有细胞的平均表达量水平
  • 适用于比较转录组学,如不同物种相同组织的不同样本间的转录表达差异比较;或者用于评估疾病等表达量特征
  • 不适用于研究系统的异质性,如早期胚胎发育、复杂组织(脑)
  • 不能提供基因表达量的随机特征

scRNA-seq

  • 2009年出现 (Tang et al. 2009)
  • 伴随着新的protocols和测序成本的降低,2014年左右被广泛推广
  • 适用于检测一群细胞的表达量分布水平;细胞特异性变化等(如鉴定细胞类型、细胞应激的异质性,基因表达的随机性、推测细胞间的基因调控网络
  • 数据集从102~ 10 8细胞,且逐年增长
  • 目前的使用的protocols:SMART-seq2 (Picelli et al. 2013), CELL-seq (Hashimshony et al. 2012) and Drop-seq (Macosko et al. 2015)
  • 商业平台:Fluidigm C1, Wafergen ICELL8 and the 10X Genomics Chromium
  • Bulk RNA-seq的一些方法也适合于scRNA-seq,大多情况需要新的方法

单细胞RNA测序流程

分析方法

scRNA-seq上游分析方法与bulk 相同,对测序数据进行质控、比对、比对结果的质控(黄色部分),接着是细胞质控、标准化,这一部分与bulk有相同的也有不同的地方,下游分析就是解释实际生物学问题,包括差异分析、聚类、网络分析等,所用的方法一般都是scRNA特有的算法。

scRNA-seq 分析的综述:(Stegle, Teichmann, and Marioni 2015)

  • Falco :云端处理scRNA-seq分析.
  • SCONE (Single-Cell Overview of Normalized Expression), scRNA-seq质控和标准化的R包
  • Seurat :scRNA-seq分析的常用的四大R包之一,包括对数据的质控、分析等
  • ASAP (Automated Single-cell Analysis Pipeline) :scRNA-seq交互分析的网络平台

挑战

bulk RNA-seq与scRNA-seq最主要的不同是scRNA-seq的每个测序文库代表一个细胞而不是一群细胞。文库的不同来源于:

  • 扩增 (达到1 million倍)
  • Gene ‘dropouts’:指一个细胞在一个细胞中是中等表达水平,但是在另一个细胞中没有被检测到

上面的差异主要来自于RNA的起始量很低,因此提高转录本的捕获率、降低扩增偏差是一个热门的研究方向。

实验方法

发展新的scRNA-seq protocol也是一个热门领域,目前已有的方法包括:

  • CEL-seq (Hashimshony et al. 2012)
  • CEL-seq2 (Hashimshony et al. 2016)
  • Drop-seq (Macosko et al. 2015)
  • InDrop-seq (Klein et al. 2015)
  • MARS-seq (Jaitin et al. 2014)
  • SCRB-seq (Soumillon et al. 2014)
  • Seq-well (Gierahn et al. 2017)
  • Smart-seq (Picelli et al. 2014)
  • Smart-seq2 (Picelli et al. 2014)
  • SMARTer
  • STRT-seq (Islam et al. 2013)

不同的方法实现方式不同,其中定量捕获是最重要的两个方面

定量有两种类型:

  • 全长(full length):
    • 致力于实现每个转录本一致的read coverage
    • 理论上的一致的coverage很难实现,经常会存在偏差
  • 基于标签(tag-based):
    • 只捕获RNA的5‘ 端或3’端,
    • 可以和UMI(unique molecular identifiers )结合提高定量准确性
    • 由于只捕获单端RNA可能会降低比对率
    • 很难鉴定isoforms

捕获

捕获策略决定了测序通量,以及得到细胞的方式和其他信息。常用的捕获策略有:

  • microwell-based

    使用吸液管或激光捕获等方法分离细胞,并将其放置在微流体管中。该方法的优缺点是:

    • 优点是:可以与FACS分选结合使用,从而可以根据细胞表面marker筛选感兴趣的特定类型的细胞,同时在分选时可以拍摄细胞。图像可以用于识别受损细胞或dublets。

    • 缺点是:通量低、耗时费工

  • microfluidic-based

    • 如Fluidigm’s C1,提供了一个更为集成的系统,用于捕捉细胞和进行建库准备所需的反应。

    • 优点是:通量比microwell-based 高

    • 缺点是:捕获效率低,只有10%的细胞可以被捕获,因此不适用于细胞类型罕见或者输入细胞量少的研究;另外芯片价格相对贵

  • droplet- based

    • 将每一个细胞封装在一个毫微升的液滴中,并加上一个珠子(bead), bead中含有建库所需的酶和唯一的条形码(barcode),条形码可以将reads来自于哪个细胞关联。因此,所有的液滴都可以汇集起来,排序在一起,然后根据条形码将reads分配给原始细胞。

    • 优点是:通量最高

    • 缺点是:测序成本、低覆盖率 (Ziegenhain et al. 2017)

如何选择合适的平台

如何选择合适的protocols,只有根据研究的生物学问题。如果感兴趣一个组织的组成,那么droplet-based的方法可以得到大量的细胞,或许是最适合的;如果研究的是罕见细胞,并且知道细胞marker,那么结合FACS富集,测少量的细胞也可以实现目的。

全长转录本适合于对不同亚型感兴趣的研究,tagged的protocols可以和UMI结合,适用于基因水平的定量。

内容来自Hemberg lab’s 单细胞课程学习笔记 :

Introduction to single-cell RNA-seq:

https://scrnaseq-course.cog.sanger.ac.uk/website/introduction-to-single-cell-rna-seq.html