R语言 生信生信数据批次矫正合集

批次效应及多数据集合并

2020-09-26  本文已影响0人  沏茶年糕团子

如何判断有批次效应

  1. 数据集中明确说明
  2. Boxplot图
  3. 聚类树
  4. PCA分析

芯片数据的处理

1.批次效应不能被消除,只有尽可能的降低。
2.是否会矫枉过正?
① 联合分析正常组为一个数据集(一种芯片);
② 实验组为另一个数据集(另一种芯片);
批次因素和分组因素可能重叠,所以直接对原数据矫正批次可能会抵消一部分真实生物学因素
3.使用removeBatchEffect或者ComBat函数后得到的表达数据,仅可用于衔接可视化(如聚类、PCA等),可视化展示,不能将去批次后的数据用于差异分析!
4.如果想要在鉴定差异基因的过程中降低批次效应,将批次加入到design中


1. 情况1 【数据集(1个)明确给出批次效应】

使用sva包的ComBat函数

2. 情况2 【数据集(1个)压根没提批次效应】

仅判断是否需要log2和normalization
使用limma包中normalizeBetweenArrays函数 (仅在同一个数据集里面使用)

3. 情况3 【多数据集合并】

(1)可去除:使用sva包/limma包;
①limma包removeBatchEffect函数
②sva包ComBat函数

(2)不可去除:RobustRankAggreg包整合分析

RNA-seq数据的处理

每个样本间的read counts不可比;因为基因长度和测序深度可能不同,所以需要对其进行Normalization

  1. FPKM是矫正了测序深度和基因长度的值
  2. TPM是FPKM的百分比
  3. RPKM是FPKM的2倍
    通常用TPM 和FPKM
  4. DEseq2包
  5. EdgeR 包
上一篇下一篇

猜你喜欢

热点阅读