批次效应及多数据集合并
2020-09-26 本文已影响0人
沏茶年糕团子
如何判断有批次效应
- 数据集中明确说明
- Boxplot图
- 聚类树
- PCA分析
芯片数据的处理
1.批次效应不能被消除,只有尽可能的降低。
2.是否会矫枉过正?
① 联合分析正常组为一个数据集(一种芯片);
② 实验组为另一个数据集(另一种芯片);
批次因素和分组因素可能重叠,所以直接对原数据矫正批次可能会抵消一部分真实生物学因素
3.使用removeBatchEffect或者ComBat函数后得到的表达数据,仅可用于衔接可视化(如聚类、PCA等),可视化展示,不能将去批次后的数据用于差异分析!
4.如果想要在鉴定差异基因的过程中降低批次效应,将批次加入到design中
1. 情况1 【数据集(1个)明确给出批次效应】
使用sva包的ComBat函数
2. 情况2 【数据集(1个)压根没提批次效应】
仅判断是否需要log2和normalization
使用limma包中normalizeBetweenArrays函数 (仅在同一个数据集里面使用)
3. 情况3 【多数据集合并】
(1)可去除:使用sva包/limma包;
①limma包removeBatchEffect函数
②sva包ComBat函数
(2)不可去除:RobustRankAggreg包整合分析
RNA-seq数据的处理
每个样本间的read counts不可比;因为基因长度和测序深度可能不同,所以需要对其进行Normalization
- FPKM是矫正了测序深度和基因长度的值
- TPM是FPKM的百分比
- RPKM是FPKM的2倍
通常用TPM 和FPKM - DEseq2包
- EdgeR 包