TCGATCGA GEOTCGA

GEO/TCGA数据是否需要标准化的问题

2020-05-12  本文已影响0人  mayoneday

一.对于芯片数据:

GEO中的Series Matrix File(s)通常是经过了标准化和对数转换的数据,但是不是所有的都是

具体判断方法:

表达量是否需要重新标准化:

可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断

是否需要log2:根据数据值的大小:

如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。

注意:是否需要log是根据后续需要什么处理,不同处理对输入数据要求的不同形式来规定的,具体可以查看相关分析包的输入数据要求,比如
image.png

芯片数据标准化:

image.png
image.png
转自此文:https://blog.csdn.net/weixin_43700050/article/details/99703975

二.对于测序数据

Counts值

对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)

aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的

标准化的三种方法得出的三种值

RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。

RPKM/FPKM方法:103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果

TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。TPM实际上改进了RPKM/FPKM方法在跨样品间定量的不准确性。TPM的使用范围与RPKM/FPKM相同。

不同的值在GEO.TCGA中怎么分辨

GEO中需要注意给出的是什么值,临床信息中一般有处理方法记录
TCGA一般会几种标准化之后的值都会给你,你选其中这一种分析,目前多用FPKM值,多还在此基础上log过

具体还可参考生信技能树老师此文
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同:https://cloud.tencent.com/developer/article/1484078

最后

感谢jimmy的生信技能树团队!

感谢导师岑洪老师!

感谢健明、孙小洁等生信技能树团队的老师一路以来的指导和鼓励!

上一篇下一篇

猜你喜欢

热点阅读