【r<-方案】TCGA表达矩阵长宽格式变换
2018-07-15 本文已影响8人
王诗翔
长宽格式互相转换一文中介绍了如何对数据的两种规整形式——长格式和宽格式进行相互转换,主要的两大利器tidyr
(tidyverse)与reshape2
。
这里介绍实际处理TCGA表达矩阵数据(同样适用于其他相同格式的数据)时的一个问题,如何把类似矩阵的数据快速变换为支持ggplot2
绘图的长格式。
看下面截图:

一般而言矩阵数据第一列是样本的特征ID,比如图中的基因,其他所有列每一列是一个样本。
如果想要使用ggplot2
或者转变为长格式进行其他处理,即得到类似下图的数据

仅需要一步即可搞定:
library(tidyverse)
data_long = data %>%
gather(Tumor_Sample_Barcode, mvalue, starts_with("TCGA")) %>% spread(GeneSymbol, mvalue)
思想是先将样本聚合,再将基因展开