RNA-Seq-----小白菜入门【康华同学】:优秀生物信息学博客

转录组学习笔记1

2019-08-20  本文已影响0人  王子狐

基因课视频笔记——仅用于个人学习
转录组原理篇

genek.tv

由于一个物种的基因组差异不大,目前所说的基因组通常指一个物种的基因组,也称为参考基因组。
对于一个二倍体(人),由于两套染色体差异不大,常说的基因组指单倍体加上性染色体。

转录组包括rRNA、tRNA、mRNA和ncRNA等,其中rRNA占了绝大部分,因此想要对mRNA进行研究时,必须首先去除rRNA。

对于转录组,一定要指明是某一组织/细胞在特定条件下基因的转录情况。

要研究某一基因的转录本,可以选择:

  1. 全长转录本测序(贵)
  2. 二代测序:将该组织/细胞的所有基因的转录本随机打断(假设有100个片段),从中随机挑选一定量的RNA片段进行建库测序(假设一次只能测5个片段,测了10次)

通过二代测序与参考基因组比对,可以得到:

在实际进行转录组测序时,可能没有与参考基因组相比对,这些数据也能使用,只是质量略差

转录组测序评判

混淆矩阵

转录组分析流程

image.png

人类有参考基因组,所以可以进行比对(mapping)
通过计算落在比对基因上的reads count就可以算出基因的表达量;
也可以优化基因结构;
发现新的转录本;

转录组测序设计

需要几个重复

Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2

技术重复(成本高)

生物学重复目前的最低要求是3对样本(要得到可靠结果至少需要10个样本)

需要多少数据量

  1. 研究差异表达时,需要大部分基因能被检测到,且大部分基因上有不少于10条reads,数据量在10-25M比较合适
  2. 研究可变剪接时,需要reads落在外显子内含子交界,因此需要更多数据量(>50M)
  3. 在没有参考基因组时,需要进行denovo拼接,至少要100Mreads

这里所说的M是按reads的条数来算的,代表了抽样次数
采取双端测序时,map到同一位点上的reads只能算一条
20Mreads换算成碱基为6Gb

混池测序

Trinity拼接原理

  1. inchworm algorithm
    将reads打断为k-mer,通过对k-mer延申,输出countig序列
  2. chrysalis
    通多countig序列以及k-mer之间的关系,构建德布鲁因图(一张图对应一个基因,不同路径代表不同剪接形式)
  3. butterfly
    根据reads对各个路径的支持选择最优路径,打印输出

比对参考序列

genek.tv
比对软件选择
image.png
image.png
比对结果可视化,显示比对到基因不同位置的reads比例
QoRTs

RPKM / FPKM / TPM

image.png

因此需要对基因长度,测序深度,总reads数进行标准化


RPKM FPKM

TPM:

  1. 对基因长度进行标准化


    image.png
  2. 将第一步标准化的结果按样本求和,再对测序深度进行标准化


TPM考虑了基因外显子的长度,更适合表达相对定量的分析,而FPKM和RPKM没有考虑这一点

TPM vs RPKM
TPM vs FPKM

样品间表达标准化

某一样本中单一基因的表达是相对的,想对不同样本间这一基因的表达进行研究,就需要对样本间的表达进行标准化

方法:

组内比较用TPM
组间比较用TMM

差异分析

通常用t检验
I类错误(假阳性)的值 = 用于界定的p值
对大量基因进行差异分析时,选择FDR对p.value进行校正,得到q-value
II类错误 通过增加样本量,重复测序减少

上一篇下一篇

猜你喜欢

热点阅读