01高通量测序-RNA-Seq简介

2021-01-13 本文已影响0人不到7不改名

RNA-Seq简介

举个例子，现在我们有一群正常的神经细胞，一群突变的神经细胞，突变细胞的行为与正常细胞不同。我们想知道是什么遗传机制造成了这种差异，这意味着我们想要观察基因表达的差异。每一个细胞有一堆染色体(chromosomes),每一个染色体上有一堆基因，有一些基因是活跃的，有的是不活跃的，高通量测序告诉我们哪些基因是活跃的，以及转录了多少。我们可以使用RNA-Seq去检测正常细胞和突变的细胞中的基因表达。然后我们就可以比较这两种细胞类型，在突变细胞中找出它们的不同之处。

image-20201231152706135.png

RNA-Seq分三个主要的步骤：

准备一个测序文库
测序
数据分析

1.准备一个测序文库

注意:我使用Illumina协议(protocol)和测序仪(sequencer)作为我的例子，因为他们是常用的，但记住，有其他协议和测序仪是不同的。

第一步：分离RNA

第二步：将RNA打断成小片段

我们这样做是因为RNA转录本可以有数千个碱基长，但测序机只能对较短的片段(200-300 bp)进行测序。

第三步:将RNA片段转化为双链DNA。

双链DNA比RNA更稳定，易于扩增和修饰(modified)。

第四步:添加测序接头(adaptors)。

接头做两件事：

允许测序仪识别片段。
允许你同时测序不同的样品，因为不同的样品可以使用不同的接头

注意：这个步骤并不是100%有效的

第五步:PCR扩增

只有具有测序接头的片段被放大;他们是丰富的。

第六步:QC

验证文库浓度
验证文库片段长度

image-20201231154643206.png

2.测序

想象一下我们要测序的DNA片段，它是垂直的，因为它在测序仪里就是这样的。实际上，大约有4亿个片段垂直排列在一个网格中。我只是给你看4个片段，网格(grid)，我们叫做流动池(flow cell),这台机器有荧光探针，不同颜色的探针结合不同的核苷酸(nucleotide)。探针连接到每个序列的第一个碱基上。一旦探针连接好，机器就会从上面给流动池拍照。这幅图告诉机器左下角的第一个碱基是“A”，右下角为‘’G‘’，后方还有两个‘’A‘’。然后机器会洗掉探针的颜色，然后探针被绑定到每个片段中的下一个碱基上，重复以上步骤。这个过程不断重复，直到机器确定每个核苷酸序列。

image-20201231162137605.png

有时，探针的亮度不高，机器也不确定自己判断的是正确的颜色，质量分数(Quality scores)是输出的一部分，反映了机器对碱基识别的自信程度，在这种情况下，褪色的点会得到低质量得分。

image-20201231162717197.png

你可能会得到低质量分数的另一个原因是，在同一区域有许多相同颜色的探针，这被称为“低多样性”，单一颜色的过多会使识别单个序列变得困难，颜色会模糊在一起。

每个测序“read”包含4行数据。第一行(总是以@'开始)是序列的唯一ID。第二行包含序列片段的碱基。第三行总是一个“+”字符。第四行包含序列片段中每个碱基的质量得分。

image-20201231163158888.png

现在我们了解了原始数据以及它是如何生成的，我们需要:

1.过滤掉垃圾reads

reads含有低质量的碱基
read显然是化学反应的产物(接头序列)

2.将高质量的reads与基因组比对

匹配read片段的基因组片段将决定一个位置(染色体和位置)在基因组中。

3.计算每个基因的reads

一旦我们知道染色体和位置，我们可以看到它是否在一个基因的坐标(或其他一些有趣的特征)。
在你计算每个基因的读数之后，你会得到一个像这样的数字矩阵

image-20201231164416687.png

在分析之前我们做的最后一件事是标准化数据。这是因为每个样本都有不同的reads，这是由于一个样本可能有更多低质量的reads，或者另一个样本可能在流动池上的浓度稍高。举个例子，样本1有635reads，样本2有1270reads。这并不意味着样本2中的基因转录量是样本1的两倍。相反，这意味着样品2有较少的低质量reads，可能比样品1在流动池上有更多的点。然而，从reads来看，样本2的基因转录量似乎是样本1的两倍。因此，我们需要调整每个基因的read，以反映分配给每个样本的reads的差异。最简单的方法就是用每个基因的reads除以每个样本的总reads。然而，还有许多更复杂的方法可以做到这一点。

image-20201231165742728.png

3.数据分析

第一步：任何数据分析的第一步是相同的，绘制数据

我们需要一张有20,000个轴的图表来绘制原始数据，所以我们使用PCA(主成分分析)或者类似的方法来绘制这些数据。PCA减少了显示数据重要方面所需的轴数。这是一个在神经细胞上做的RNA-seq实验的PCA图。“wt”样本是“正常的”。“ko”样本是研究人员突变的样本。“ko”样品在角落里形成了一个漂亮的小簇。“wt”样本都在左侧，但分布在y轴上。这些图的绘制方式，最重要的区别是在x轴上，在y轴的区别不重要，这意味着“wt”和“ko”样本之间的差异最大，然而，当我们做进一步分析时，我们可能希望排除“wt2”。

image-20201231170642215.png

总结：

告诉我们是否可以期待发现有趣的差异。
告诉我们是否应该从下游分析中排除一些样品。

第二步：鉴定“正常”和“突变”样本之间的差异表达基因

这通常使用edgeR或DESeq2来完成，结果通常使用这种图表来显示。

image-20201231171240995.png

如果你知道你在寻找什么，你就可以看看实验是否验证了你的假设。
如果你不知道你在寻找什么，你可以看到某些通路富集在正常或突变基因集。