生物信息学与基因组学转录组转录组

【哈佛大学:计算生物学 & 生物信息学】学习记录(五)

2022-04-14  本文已影响0人  陈有朴

为什么没有(四)?
(四)主要说的就是SAM格式,网上一搜就有,就没必要了
(五)就草草地记录了Chapter 4.1: RNA-Seq Applications - Chapter 5.2 Differential RNA-Seq

RNA-Seq的应用

生物体内的转录&翻译过程

RNA-Seq建库流程

1、提取所有的mRNA或所有的RNA
2、去除DNA(在RNA建库流程中,DNA被认为是污染物)
可选过程:去除rRNA(选择mRNA)
3、将RNA片段打断(二代测序读长问题)
4、将RNA逆转录为cDNA
可选过程:链特异性选择
5、连接adapter & PCR扩增
6、选择合适长度的cDNA
7、单端测序 或 双端测序

参考文献链接:
https://www.nature.com/articles/nrg3068

RNA-Seq的应用

image.png

RNA-Seq实验设计

注意事项:已经降解或部分降解的RNA不可用于建库

原因:当提取的RNA被作为archival tissue储存了很长时间,同时需要注意的是短片段RNA,其3'端更加稳定。
检查RNA质量的方式:DV200指标,指片段大于200 bp的RNA的占比。
【标注】推荐DV200 > 30%


image.png

实验设计目的

RNA-Seq可以进行测序的几种RNA类型:
1、Ribo-minus:去除富集的rRNA和tRNA的RNA文库
2、使用PolyA-RNA(成熟的mRNA)进行建库
3、Strand specific/链特异性测序
【标注】一般用于挖掘novel LncRNA

测序价钱问题:一个sample 200$的情况
作为项目负责人,需要考虑的几个问题:

  1. SE or PE: PE getting more popular
  2. Depth: 20-50M for differential expression, deeper for transcript assembly or splicing.(20 million对于novel转录本和可变剪接的发现,并没有50 million的结果好)
  3. Read length: longer for transcript assembly, splicing, or mutation calls

4、评估biological variation

image.png

RNA-Seq中的序列比对

由于在生成mRNA过程中,存在可变剪接,因此BWA等DNA序列比对软件不适用于RNA比对。
TopHat等RNA-Seq比对软件的算法,可简单概述为:

先构建参考序列的索引,将reads比对到参考基因组的exon上,同时使用不同的junction片段构建新的数据库,再将原始数据中不能比对到exon上的reads比对到junction上。

图示如下,以09年发表的TopHat作为例子:


image.png

比对生成的文件还是SAM/BAM格式,但是single-end和pair-end的数据存在一定差别:

【例】


image.png

RNA-Seq:比对后的QC

RNA-Seq可能存在的问题:前几个碱基的测序质量不佳。解决方案就是使用Trimmomatic等软件将reads的前几个碱基剪切掉。


image.png

上述问题的原因,在这篇文献中有报道:https://academic.oup.com/nar/article/38/12/e131/2409775?login=true

image.png

RNA-Seq QC也可以用于查看数据的一些信息,比如插入片段长度、reads主要比对到什么区域、TIN(transcript integrity number)、medTIN(median transcript integrity number)等。如下:

image.png

可以在这个网站查看:http://rseqc.sourceforge.net/
看这部分的时候感觉有点懵啊,不是一般都先QC再比对吗?

RPKM, FPKM, TPM

RPKM,全称“Reads Per Kilobase Million”,用于single end RNA-Seq。
计算公式:\frac{Total \quad reads}{1M * gene length}
FPKM,全称“Fragments Per Kilobase Million”,用于paired-end RNA-Seq
计算公式:\frac{RPKM}{2}
TPM,全称“Transcripts Per Million”,现在最常用的RNA-Seq标准化方法。
我觉得看看这两篇文章差不多就ok了~

RSEM vs Salmon

(1)RSEM使用

输入数据:FASTQ or BAM
输出:转录本水平的表达量(e.g. read count, TPM, FPKM),该表达量计算结果基于转录组有效长度(effective transcript length),即exon的长度

【标注】effective length
计算公式:\overset{-}{l_{i}} = l_{i} - μ + 1
l_{i}为转录本长度,μ为插入片段平均长度
对于一条转录本,靠近5'端和3'端的部分较难被测序,因此若将此部分用于定量,会造成结果不准确。

image.png

同时,还需要考虑到的因素是一个gene可以有多个isoform,如下图:
【标注】isoform,为exon组合得到的mRNA


image.png

下图展示了3种不同的组织中,不同isoform的表达,同时根据reads count来估计每一种isoform在对应组织中的likelihood。


image.png

reads count表达量,如下表:
但是由于isoform3和isoform1和2,存在很多的重叠部分,因此上述分析对isoform3 likehood的估计是不准确的。


image.png

不通过比对也能够定量的方法 —— Pseudoalignment

image.png

RNA-Seq Read Distribution

(1)microarray

在芯片时代,RNA-Seq测序的reads分布,一般被认为是正态分布。


image.png

一般gene,在多个样品中的表达量分布,符合下图第三幅图:


image.png

(2)RNA-Seq

RNA-Seq测序得到的reads分布,一般符合泊松分布。

e.g. 泊松分布


image.png

RNA-Seq对应的表达量 —— 负二项分布

表达量越高的gene,其对应的表达量方差越大,反之亦然。

image.png

Differential Gene Expression

当获得的测序数据,不符合normal distribution(正态分布)时,可以对数据进行转换(e.g. log-transformation)

这边设计一个非常重要的概念,实际上就是针对什么类型(属于什么分布)的数据,使用什么检验方法

图示:

image.png

(1)microarray的标准化方式

算法:limma


image.png

【标注】一般使用t检验或t检验的变形对gene expression进行分析
limma的输入数据
(1)reads count matrix
(2)design matrix(sample属于何种实验条件)
(3)contrast matrix(对哪几种条件进行比较)
【分析标注】采用log-normal对原始数据进行转换,导致数据变泛了,对某些条件或某些gene的检测灵敏度不高了。

(2)基于负二项分布的标准化方法

负二项分布能够很好地捕捉到测序过程中的一些bias,对真实数据有一个更好的体现。

(3)DESeq2:Modeling overdispersion

RNA-Seq一般都只有2~3个rep,但是如果想要对真实的基因表达量的方差有一个体现,上述重复数肯定是不够的。
一般情况下,对基因表达量的mean和variance进行估计,估计出的方差是大于真实值的,如下图蓝线和黑线的区别:

image.png image.png

差异表达基因的可视化

(1)火山图

image.png

(2)MA图

image.png

M:代表两种实验条件下的log ratio和log fold change
A:基因表达量的均值

后话

虽然跑过转录组,但是实际上我对其中的原理只能说是一知半解,还需要多实践。
课程得学,笔记也得做,实践也得跟上。
但是觉得笔记还是不够硬核,或许应该给自己看看就好。

上一篇下一篇

猜你喜欢

热点阅读