生信分析转录组

RNA-seq名词解释(4)

2022-05-10  本文已影响0人  花生学生信
(五)比对相关

blast:Basic Local Alignment Search Tool,一种序列比对的工具。

mapping:reads 往参考序列上做比对。(短对长)

alignment:比对,通过算法获取两个或多个序列之间的相似性以至于同源性。(长度相似)

junction reads:跨越多个外显子的 reads。

genome browser:基因组浏览器,用于查看 mapping 结果的工具。例 如:IGV,UCSC Genome browser。

bam/sam:当测序得到的 fastq 文件 map 到基因组之后,我们通常会得到一个以 sam 或者 bam 为扩展名的文件。其记录了比对率、比对位置等具体信息。SAM 的全称是 Sequence Alignment/Map format。而BAM 就是 SAM 的二进制文件(B 取自 binary)。

(六)表达定量相关

RPKM:表达水平的表示方式。根据 RNA-seq 原理,测序过程实际上是对转录组中各转录本打断后随机采样的过程。因此,当某基因的表达水平较高时,该基因上的读段数就多;当某基因的长度较长时,该基因上的读段数也会较多;另外,基因上的读段数还受到测序深度的影响,即当某次 RNA-seq 实验测序深度较深时,基因上的读段数也较多。因此,如果要利用读段数这一统计量来估计基因表达水平,就需要将某基因上的读段数 xg 除以基因的长度 lg 和总的测序深度 w 来进行归一化。基于这种思想,Mortazavi 等人提出了 RPKM (Reads Per Kilo-base per Million reads)的概念 (Mortazavi et al, 2008),并成为 RNA-seq 应用早期估计基因表达水平和外显子表达水平的主要方法。RPKM 方法的公式表示为:


RPKM gene(i) = 10^9 readcountgene(i) /(lengthgene(i) * libsizegene)*
因此,RPKM 可以作为一个衡量基因表达水平高低的重要指标。

FPKM:FPKM 与 RPKM 的用途有一定的相似之处,都是为了消除
技术偏差的表达水平的表示方式。不同的是 FPKM 观察出双端 reads
中 fragment 的差异而 RPKM 关注的是 reads 的表达量。

FPKM与RPKM计算方法基本一致

RPM/CPM: Reads/Counts of exon model per Million mapped reads (每百万映射读取的reads)

TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)

参考链接:

FPKM_百度百科 (baidu.com)
RPKM_百度百科 (baidu.com)

上一篇下一篇

猜你喜欢

热点阅读