【RNA-seq自学10】总结篇
1、什么情况下用RNAseq
RNAseq是一种高通量测序技术。它可以帮助我们理解在各种比较条件下,所有基因的表达情况的差异。简单的理解,就是RNAseq可以得到同种不同类型的两类细胞间的基因表达差异。
以正常的神经细胞和发生突变的神经细胞为例。这两种细胞的行为表现不同,我们想知道造成这种差异的遗传机制是什么
正常的和突变的神经细胞这个时候,我们就需要用到一种技术“高通量测序”,高通量测序能告诉我们哪些基因被激活,以及他们的转录数量。RNAseq技术能分析细胞内的全转录组差异,看他们基因表达的情况有何不同。
不同基因的表达情况例如:
gene1在两种细胞中的表达没有差别。
gene2在正常神经细胞中不表达,而在突变神经细胞中高表达。二者差异很大。
gene3在两种细胞中都有表达并且差异较小。
2、RNA-seq的四个主要步骤
1)Prepare a sequencing library 建立测序文库
2)Sequence 测序
3)Data analysis 数据分析
4Visualization 可视化
1)建立测序文库
建立测序文库STEP1 分离RNA
STEP2 将RNA切割成小片段
因为:RNA转录本可能是几千bq的长度,而测序机器只能测小片段(200-300bp)
STEP3 将RNA片段转化为DNA双链
因为:1双链DNA比RNA稳定,2更容易扩增及修饰(STEP4)
STEP4 加测序接头
接头的作用:1机器更容易识别片段,2可以同时测序不同的样品(不同样品加不同接头)提高性价比
STEP5 PCR扩增
只有加接头的片段能被扩增
STEP6 质量检测
检测文库浓度和片段长度,确保片段长度合适。
2)测序
测序(第一排)一块测序板上(Flowcell)能包含多于400,000,000个片段,垂直于测序板排列。测序仪有四种颜色的荧光探针A、T、C、G,与测序片段上的碱基互补,结合上就闪一下自己带的荧光(A带红光,G带蓝光,C绿光,T橙光)。每闪一次光,测序仪就对其进行“拍照”记录下来,许许多多的测序片段中同一排的碱基测完了,就把原来荧光的那一排碱基冲掉,再放下排的碱基与荧光碱基进来结合、放光。如此循环。
测序(第二排)这一步是由测序仪完成的,得到的结果就是raw data.
raw data第一行由@开头,后面是测序的独特ID;第二行包含测序片段的碱基。第四行是测序片段每个碱基的质量分数(fastqc里的一项重要指标)。
3) 数据分析
STEP1 原始数据处理
在RNA-seq实战过程中,这一步我主要做了2个内容:
①质量评估FastQC和MultiQC
【RNA-seq自学3】样品分析之质量评估FastQC及结果分析 - 简书
【RNA-seq自学4】样品分析之质量评估MultiQC及结果分析 - 简书
进行质量评估能够直观的看到测序结果,并对其进行评价,如:碱基质量分布,GC含量,未检测出碱基N的含量,等等。其中multiqc可以对fastqc的结果进行整合,让我们可以一次看到多个样品的报告。
②去接头Trimmomatic
【RNA-seq自学5】样品分析之去接头Trimmomatic - 简书
我们测序的结果包括接头(sequencing adaptors),而我们想要测序的基因并不包含基因,因此需要我们通过软件来将接头去掉。
STEP2 对比到参考基因组(序列比对)
序列比对原理先将参考基因组序列打断成许多小片段,然后为了方便接下来寻找这些片段,需要对他们进行构建索引index(目的是标注每个小片段的位置)
再将测序的reads和基因组一样,也是打断成小片段,然后把它的小片段比对到基因组的小片段上,比对上的会给出位置信息。
可以进行序列比对的软件有多种,我实战中练习了STAR
【RNA-seq自学06】样品分析之序列比对STAR - 简书
STEP3 统计reads数(表达定量)
表达定量通俗的讲,表达定量就是讲我们测序好的cDNA文库中每个基因计数。我在实战中用RSEM、kallisto和featureCount软件练习了 计算基因的count数
【RNA-seq自学07】数据分析之表达定量RSEM Kallisto - 简书
【RNA-seq自学08】数据分析之表达定量 featureCount 、表达矩阵 - 简书
STEP4 构建表达矩阵,标准化表达矩阵
统计好reads数之后,构建表达矩阵能将结果更加直观的表现出来。
直接构建出来的表达矩阵还不能直接用,我们需要将不表达的基因删除以及标准化表达矩阵,举个例子:
表达矩阵看起来,似乎sample2的基因表达量都为sample1的2倍,但sample2的总reads数本身就大于sample1.因此我们需要将表达矩阵标准化,让他们站在同一起跑线上。
到这一步,我们就可以筛选上调表达的基因、下调表达的基因...
【RNA-seq自学08】数据分析之表达定量 featureCount 、表达矩阵 - 简书
4)可视化
STEP1 差异基因分析
DESeq2使用的是原始counts值做差异分析,表达量的校正方法是TPM。其中有两点需要注意:1.DEseq2要求输入数据是由整数组成的矩阵。2.DESeq2要求矩阵是没有标准化的。
STEP2 对差异分析结果进行绘图(可视化)
数据有多种呈现方式,例如Heatmap,Volcano,Cluster,PCA等等。
一般网上会有人写了代码,我们需要的时候可以从网上查找,修改参数运行。
【RNA-seq自学09】数据分析之差异基因分析DEseq2、可视化 - 简书
完结。