转录组学习笔记1
基因课视频笔记——仅用于个人学习
转录组原理篇
由于一个物种的基因组差异不大,目前所说的基因组通常指一个物种的基因组,也称为参考基因组。
对于一个二倍体(人),由于两套染色体差异不大,常说的基因组指单倍体加上性染色体。
转录组包括rRNA、tRNA、mRNA和ncRNA等,其中rRNA占了绝大部分,因此想要对mRNA进行研究时,必须首先去除rRNA。
对于转录组,一定要指明是某一组织/细胞在特定条件下基因的转录情况。
要研究某一基因的转录本,可以选择:
- 全长转录本测序(贵)
- 二代测序:将该组织/细胞的所有基因的转录本随机打断(假设有100个片段),从中随机挑选一定量的RNA片段进行建库测序(假设一次只能测5个片段,测了10次)
通过二代测序与参考基因组比对,可以得到:
- 序列信息(合成并推测序列)
- 变异信息(与参考基因组不同的地方)
- 基因/转录本的表达量(reads count,比对到基因/转录本上的reads数目)比对时必须考虑到该基因/转录本的长度
在实际进行转录组测序时,可能没有与参考基因组相比对,这些数据也能使用,只是质量略差
转录组测序评判
混淆矩阵
-
准确率与召回率
genek.tv
image.png -
特异性/敏感性/ROC
image.png
以假阳性率(1-特异度)为x轴,真阳性率为y轴,绘制出来的就是ROC曲线
image.png
转录组分析流程
image.png人类有参考基因组,所以可以进行比对(mapping)
通过计算落在比对基因上的reads count就可以算出基因的表达量;
也可以优化基因结构;
发现新的转录本;
转录组测序设计
需要几个重复
Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2
技术重复(成本高)
生物学重复目前的最低要求是3对样本(要得到可靠结果至少需要10个样本)
需要多少数据量
- 研究差异表达时,需要大部分基因能被检测到,且大部分基因上有不少于10条reads,数据量在10-25M比较合适
- 研究可变剪接时,需要reads落在外显子内含子交界,因此需要更多数据量(>50M)
- 在没有参考基因组时,需要进行denovo拼接,至少要100Mreads
这里所说的M是按reads的条数来算的,代表了抽样次数
采取双端测序时,map到同一位点上的reads只能算一条
20Mreads换算成碱基为6Gb
混池测序
- 混池相当于求平均值,会丢失异常值信息和组内差异信息(假阳性高),因此研究差异表达时不建议用混池测序(大量样本时可以尝试)
- 可以用于研究转录本序列
Trinity拼接原理
- inchworm algorithm
将reads打断为k-mer,通过对k-mer延申,输出countig序列 - chrysalis
通多countig序列以及k-mer之间的关系,构建德布鲁因图(一张图对应一个基因,不同路径代表不同剪接形式) - butterfly
根据reads对各个路径的支持选择最优路径,打印输出
比对参考序列
genek.tv比对软件选择
image.png
image.png
比对结果可视化,显示比对到基因不同位置的reads比例
QoRTs
RPKM / FPKM / TPM
image.png因此需要对基因长度,测序深度,总reads数进行标准化
RPKM FPKM
TPM:
-
对基因长度进行标准化
image.png -
将第一步标准化的结果按样本求和,再对测序深度进行标准化
TPM vs RPKMTPM考虑了基因外显子的长度,更适合表达相对定量的分析,而FPKM和RPKM没有考虑这一点
TPM vs FPKM
样品间表达标准化
某一样本中单一基因的表达是相对的,想对不同样本间这一基因的表达进行研究,就需要对样本间的表达进行标准化
方法:
- 管家基因(内参):由于管家基因较少,可靠性不高
- 假设:大多数基因在样本间没有差异表达
再通过统计学方法找到标准化因子
image.png
image.png
组内比较用TPM
组间比较用TMM
差异分析
通常用t检验
I类错误(假阳性)的值 = 用于界定的p值
对大量基因进行差异分析时,选择FDR对p.value进行校正,得到q-value
II类错误 通过增加样本量,重复测序减少