01高通量测序-RNA-Seq简介
RNA-Seq简介
举个例子,现在我们有一群正常的神经细胞,一群突变的神经细胞,突变细胞的行为与正常细胞不同。我们想知道是什么遗传机制造成了这种差异,这意味着我们想要观察基因表达的差异。每一个细胞有一堆染色体(chromosomes),每一个染色体上有一堆基因,有一些基因是活跃的,有的是不活跃的,高通量测序告诉我们哪些基因是活跃的,以及转录了多少。我们可以使用RNA-Seq去检测正常细胞和突变的细胞中的基因表达。然后我们就可以比较这两种细胞类型,在突变细胞中找出它们的不同之处。
RNA-Seq分三个主要的步骤:
-
准备一个测序文库
-
测序
-
数据分析
1.准备一个测序文库
注意:我使用Illumina协议(protocol)和测序仪(sequencer)作为我的例子,因为他们是常用的,但记住,有其他协议和测序仪是不同的。
第一步:分离RNA
第二步:将RNA打断成小片段
我们这样做是因为RNA转录本可以有数千个碱基长,但测序机只能对较短的片段(200-300 bp)进行测序。
第三步:将RNA片段转化为双链DNA。
双链DNA比RNA更稳定,易于扩增和修饰(modified)。
第四步:添加测序接头(adaptors)。
接头做两件事:
-
允许测序仪识别片段。
-
允许你同时测序不同的样品,因为不同的样品可以使用不同的接头
注意:这个步骤并不是100%有效的
第五步:PCR扩增
只有具有测序接头的片段被放大;他们是丰富的。
第六步:QC
-
验证文库浓度
-
验证文库片段长度
2.测序
想象一下我们要测序的DNA片段,它是垂直的,因为它在测序仪里就是这样的。实际上,大约有4亿个片段垂直排列在一个网格中。我只是给你看4个片段,网格(grid),我们叫做流动池(flow cell),这台机器有荧光探针,不同颜色的探针结合不同的核苷酸(nucleotide)。探针连接到每个序列的第一个碱基上。一旦探针连接好,机器就会从上面给流动池拍照。这幅图告诉机器左下角的第一个碱基是“A”,右下角为‘’G‘’,后方还有两个‘’A‘’。然后机器会洗掉探针的颜色,然后探针被绑定到每个片段中的下一个碱基上,重复以上步骤。这个过程不断重复,直到机器确定每个核苷酸序列。
image-20201231162137605.png有时,探针的亮度不高,机器也不确定自己判断的是正确的颜色,质量分数(Quality scores)是输出的一部分,反映了机器对碱基识别的自信程度,在这种情况下,褪色的点会得到低质量得分。
image-20201231162717197.png你可能会得到低质量分数的另一个原因是,在同一区域有许多相同颜色的探针,这被称为“低多样性”,单一颜色的过多会使识别单个序列变得困难,颜色会模糊在一起。
每个测序“read”包含4行数据。第一行(总是以@'开始)是序列的唯一ID。第二行包含序列片段的碱基。第三行总是一个“+”字符。第四行包含序列片段中每个碱基的质量得分。
image-20201231163158888.png现在我们了解了原始数据以及它是如何生成的,我们需要:
1.过滤掉垃圾reads
-
reads含有低质量的碱基
-
read显然是化学反应的产物(接头序列)
2.将高质量的reads与基因组比对
- 匹配read片段的基因组片段将决定一个位置(染色体和位置)在基因组中。
3.计算每个基因的reads
-
一旦我们知道染色体和位置,我们可以看到它是否在一个基因的坐标(或其他一些有趣的特征)。
-
在你计算每个基因的读数之后,你会得到一个像这样的数字矩阵
在分析之前我们做的最后一件事是标准化数据。这是因为每个样本都有不同的reads,这是由于一个样本可能有更多低质量的reads,或者另一个样本可能在流动池上的浓度稍高。举个例子,样本1有635reads,样本2有1270reads。这并不意味着样本2中的基因转录量是样本1的两倍。相反,这意味着样品2有较少的低质量reads,可能比样品1在流动池上有更多的点。然而,从reads来看,样本2的基因转录量似乎是样本1的两倍。因此,我们需要调整每个基因的read,以反映分配给每个样本的reads的差异。最简单的方法就是用每个基因的reads除以每个样本的总reads。然而,还有许多更复杂的方法可以做到这一点。
image-20201231165742728.png3.数据分析
第一步:任何数据分析的第一步是相同的,绘制数据
我们需要一张有20,000个轴的图表来绘制原始数据,所以我们使用PCA(主成分分析)或者类似的方法来绘制这些数据。PCA减少了显示数据重要方面所需的轴数。这是一个在神经细胞上做的RNA-seq实验的PCA图。“wt”样本是“正常的”。“ko”样本是研究人员突变的样本。“ko”样品在角落里形成了一个漂亮的小簇。“wt”样本都在左侧,但分布在y轴上。这些图的绘制方式,最重要的区别是在x轴上,在y轴的区别不重要,这意味着“wt”和“ko”样本之间的差异最大,然而,当我们做进一步分析时,我们可能希望排除“wt2”。
image-20201231170642215.png总结:
-
告诉我们是否可以期待发现有趣的差异。
-
告诉我们是否应该从下游分析中排除一些样品。
第二步:鉴定“正常”和“突变”样本之间的差异表达基因
这通常使用edgeR或DESeq2来完成,结果通常使用这种图表来显示。
image-20201231171240995.png-
如果你知道你在寻找什么,你就可以看看实验是否验证了你的假设。
-
如果你不知道你在寻找什么,你可以看到某些通路富集在正常或突变基因集。