数据为什么进行log2转化,倍数变化为什么要个log2FC?
2022-10-24 本文已影响0人
微生信
2022年10月24日,首先祝所有程序员们(会写、会看代码的都算)节日快乐!
1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,用最低调、最踏实、最核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!
将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。
另外,强烈推荐大家看看StatQuest!
微生信助力高分文章,用户55000+,引用700
1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,用最低调、最踏实、最核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!
1,fold change的log2转化
以转录组分析为例,例如我们测了某基因在3个样品中的表达值,例如在A样品中基因TP53表达量为8,在样品B中表达值为1,在样品C中表达值为0.125(即1/8)。将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。
图1. 常规坐标轴(来自statquest,有修改)
图2. Log2坐标轴(来自statquest,有修改)
2,芯片或者测序数据的log2转化
一般情况下,我们的芯片或者测序给出来的原始值范围都是非常大的,例如Agilent芯片的信号强度从0到65535,tpm从0到25000。将它们绘制密度分布后,一般呈现右偏,即大部分信号都是在左侧,右侧拖个长长的尾巴,不利于研究,而经过log2转化后,数据更加集中,更加接近正态分布,更方便我们套用正态分布那一套进行研究。
图3. Raw数值分布
图4. 更接近正态分布
总结下(Coursera上杜克大学的统计学课程)
取对数,只是数据变换的一种方式,除此之外还可以取平方根、取倒数等。
数据变换的目的,有三点:
1.We might want to see the data structure a little differently (数据范围压缩了)
2.We might want to reduce skew to assist in modeling (更接近正态了)
3.We might want to straighten a nonlinear relationship in a scatterplot, so that we can model the relationship with simpler methods(更容易用简单的方法来研究了)
另外,强烈推荐大家看看StatQuest!
微生信助力高分文章,用户55000+,引用700