log10数据要当心

2024-07-14  本文已影响0人  小洁忘了怎么分身

基因表达芯片的数值范围是需要关注的信息。

可以从箱线图上面看出大部分的端倪。

特殊数据看过来

options(timeout = 10000)
library(tinyarray)

## tinyarray v 2.4.2  welcome to use tinyarray!
## If you use tinyarray in published research, please acknowledgements:
## We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee,especially Xiaojie Sun, for generously sharing their experience and codes.

a = geo_download("GSE66229")

## 54675 probes, 400 samples from 0.572611153 to 4.467523098

#因为样本数量太多,用sample抽样10个样本出来画箱线图即可。
boxplot(a$exp[,sample(1:ncol(a$exp),10)])

这个数据的范围是在0-4之间的。正常的log之后的数据范围是0~20之间,这个范围很不正常。一般是下载到了log后的数据,又给人log一次,才会这样。

但是呢,这数据下载下来就是这么个范围,并不是多余log导致的。所以我们应该去GEO网站上面找答案啊。

数据处理的细节不在GSE页面上,而是在GSM页面上,也就是说应该点开某个具体的样本来看。

破案了哦,这是log10的数据,是不可以直接使用的,你拿它计算log2FC算出来的值就非常小!

所以需要逆转一下:

exp = a$exp
exp = log2(10^exp+1)
boxplot(exp[,sample(1:ncol(a$exp),10)])

再看这个范围,已经恢复正常咯。

总结

我们并不是提前知道这个数据取了log10,而是看到数据范围在0-4之间,不太正常,所以到网页上查才查到的。

和它一样log10的数据还有一个:GSE62254。一毛一样的情况。

表达芯片的数据范围总结

zscore的数据可以用来做热图,做箱线图,做生存分析,但是一般不用来做差异分析。

上一篇 下一篇

猜你喜欢

热点阅读