批次效应及多数据集合并

2020-09-26 本文已影响0人沏茶年糕团子

如何判断有批次效应

数据集中明确说明
Boxplot图
聚类树
PCA分析

芯片数据的处理

1.批次效应不能被消除，只有尽可能的降低。
2.是否会矫枉过正？
① 联合分析正常组为一个数据集(一种芯片)；
② 实验组为另一个数据集（另一种芯片）；
批次因素和分组因素可能重叠，所以直接对原数据矫正批次可能会抵消一部分真实生物学因素
3.使用removeBatchEffect或者ComBat函数后得到的表达数据，仅可用于衔接可视化（如聚类、PCA等），可视化展示，不能将去批次后的数据用于差异分析！
4.如果想要在鉴定差异基因的过程中降低批次效应，将批次加入到design中

1. 情况1 【数据集(1个)明确给出批次效应】

使用sva包的ComBat函数

2. 情况2 【数据集(1个)压根没提批次效应】

仅判断是否需要log2和normalization
使用limma包中normalizeBetweenArrays函数（仅在同一个数据集里面使用）

3. 情况3 【多数据集合并】

（1）可去除：使用sva包/limma包；
①limma包removeBatchEffect函数
②sva包ComBat函数

（2）不可去除：RobustRankAggreg包整合分析

RNA-seq数据的处理

每个样本间的read counts不可比；因为基因长度和测序深度可能不同，所以需要对其进行Normalization

FPKM是矫正了测序深度和基因长度的值
TPM是FPKM的百分比
RPKM是FPKM的2倍
通常用TPM 和FPKM
DEseq2包
EdgeR 包