生物信息学与算法R语言与统计分析诗翔的R语言学习之路

【r<-方案】TCGA表达矩阵长宽格式变换

2018-07-15  本文已影响8人  王诗翔

长宽格式互相转换一文中介绍了如何对数据的两种规整形式——长格式和宽格式进行相互转换,主要的两大利器tidyr(tidyverse)与reshape2

这里介绍实际处理TCGA表达矩阵数据(同样适用于其他相同格式的数据)时的一个问题,如何把类似矩阵的数据快速变换为支持ggplot2绘图的长格式。

看下面截图:

TCGA矩阵格式

一般而言矩阵数据第一列是样本的特征ID,比如图中的基因,其他所有列每一列是一个样本。

如果想要使用ggplot2或者转变为长格式进行其他处理,即得到类似下图的数据

长格式

仅需要一步即可搞定:

library(tidyverse)

data_long = data %>% 
    gather(Tumor_Sample_Barcode, mvalue, starts_with("TCGA")) %>% spread(GeneSymbol, mvalue) 

思想是先将样本聚合,再将基因展开

上一篇 下一篇

猜你喜欢

热点阅读