初识RNAseq

2019-02-18 本文已影响256人莫讠

1 背景

细胞染色体中的基因并不是所有都是活跃表达的，只是只有一部分基因是可以表达，而表达的中间过程就要经历mRNA转录本，通过高通量测序，我们就能得知：哪些基因是活跃可以表达的，并且产生了多少转录本（也就是衡量基因表达量的指标）

图1
先将正常的细胞测一遍，再将变异的细胞测一遍，得到它们的表达量，我们后来就是比较它们的表达量差异

图2

可以看出，基因1在两组样本中差异不大或者没有差异；基因2在正常组中基本不表达，而在变异组中表达量很高，二者差别甚大；基因3有差别但比较小

2 RNA-seq步骤

Step1 构建测序文库

分离RNA=》将RNA打断成小片段=〉将小RNA片段反转录成DNA=》加接头

接头两个作用：测序仪识别；允许一台测序仪同时运行多个样本，提高性价比
但是需要注意：加接头的过程是随机的，并不是所有的接头都被加上，有些反转录的DNA片段没有加上接头

=》PCR扩增（只有加上接头的测序片段才能被扩增）=〉质量检查QC（看下文库的浓度和片段长度）

图3

对文库进行测序

在一块测序板上（术语Flowcell）可以包含超过4千万个片段，垂直于测序板排列。
目前采用的测序方式为illumina测序仪（NGS），测序仪有四种颜色的荧光探针A、T、C、G，与测序片段上碱基互补，结合上就“放烟花”表示庆祝🎉（就是闪一下自己带的荧光，比如A带红光，G带蓝光，C绿光，T橙光）。当然，这一切都逃不过测序仪自带的高精度照相机的法眼【测序仪为什么贵？就是在于它的高精度照相机，想想要分辨这么微小的亮光，密密麻麻，密集恐机症都犯了🤢】许许多多的测序片段中同一排的碱基测完了，就把原来荧光的那个碱基冲掉了，再放下一个荧光碱基进来结合、放光

图4

测序出来的结果即为raw data, 这就是fastq数据

Step2 原始数据的处理

质控=》过滤garbage reads=〉比对到参考基因组=》再数一下每个基因比对上多少reads

garbage reads:

有些时候接头并没有加到测序片段，而是他们直接结合，也能进行测序，但测得结果是没用的

比对到参考基因组

先将大的基因组序列打断成许多小片段，然后为了方便接下来寻找这些片段，需要对他们进行构建索引index（目的就是标注每个小片段的位置）
再将测序的reads和基因组一样，也是打断成小片段，然后把它的小片段比对到基因组的小片段上，比对上的会给出位置信息

图5

统计reads数得到表达矩阵

就想这样：第一列是基因名（人类基因组有大概2w基因，因此大概有2w行）
其他列是每个测序样本比对上的数量（6-成百上千不等），这里的6的考虑的是处理对照各3个重复，即Bulk-seq；大样本量的RNA-seq比如Single-cell，每个细胞都是一个样本，因此成百上千
每一行都是原始的统计值，每个基因在每个样本中被抓到多少次