R语言 生信科研信息学TCGA数据挖掘

下载TCGA基因表达量文件,应该选Count,FPKM还是FPK

2019-08-28  本文已影响0人  组学大讲堂

GDC中转录组的表达量文件有3种类型,分别对应着不同的定量方法。

Counts 就不用说了,来看看FPKM和FPKM-UQ有啥差别,这个可以查看GDC的官方说明文档中的转录组分析部分,两者的计算公式:

    RCg: 比对到基因上的reads数量

    RCpc: 比对到所有编码蛋白基因上的reads数量

    RCg75: 样品中75%分位对应的基因reads数目

     L: 基因的长度,为外显子长度之和

以一个计算实例来说明两者的差别:

假设在样品1中Gene A 的相关统计信息如下:

    1. Gene A的长度为:3000 

    2. 比对到Gene A上的reads数量:1000

    3. 比对所有基因上的reads数据量:1,000,000

    4. 样品1中覆盖75%基因的reads数:2000 

那么,FPKM和FPKM-UQ的计算结果如下:

    FPKM  = (1,000)*(10^9)/[(3,000)*(1,000,000)] = 333.33

    FPKM-UQ  = (1,000)*(10^9)/[(3,000)*(2,000)] = 166,666.67

那么我们一般下载那种数据比较好呢?

如果是做差异分析的话,我建议采用counts ,毕竟有不少的差异分析的软件都是基于counts数。

如果是计算样品间的相关性,聚类等,那就可以采用均一化的FPKM,和FPKM-UQ。当然下载counts,之后进行标准化,也是可以的。

所以,一般下载counts会比较好一些。

如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。

《TCGA-生存分析》

https://study.163.com/course/introduction/1005645022.htm?share=1&shareId=1031484705

 《TCGA-ceRNA调控网络分析》

https://study.163.com/course/introduction/1006360042.htm?share=1&shareId=1031484705

《TCGA-转录因子调控》

https://study.163.com/course/introduction/1005807030.htm?share=1&shareId=1031484705

更多技能学习链接:

http://m.study.163.com/provider/400000000234009/index.htm?share=1&shareId=1031484705

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5.微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

上一篇下一篇

猜你喜欢

热点阅读