玩转TCGA临床信息
相信很多做科研的同学刚步入科学殿堂的时候,都是从学习和模仿他人的研究开始的,小编当年也是这样的。俗话说他山之石可以攻玉,这也是一种不错的学习方法。但是,有时候却很难重现原作者的结果,甚至有时候连作者的实验数据如何获取,样本如何分类都很难搞清楚。
前些日子有位同学follow一篇宫颈癌的文章,
对作者是如何从307个early-stage cervical cancer (CESC)病人中根据临床信息挑选出145个病人的过程有些疑惑。下面是原作者筛选样本的标准。
今天小编就带大家来重现这个过程。首先我们要从TCGA中下载CESC的临床信息,在TCGA中搜索CESC,选择TCGA-CESC。
选择miRNA样本,点击307这个超链接。
任意选择一个样本,点击进入。
选择clinical,点击10这个超链接。
点击nationwidechildrens.org_clinical_patient_cesc.txt 进入
点击Download下载,里面就包含所有样本的临床信息
解压到当前文件夹
用excel打开nationwidechildrens.org_clinical_patient_cesc.txt
删除第一行和第三行
找到clinical_stage这一列进行筛选,根据作者原文方法部分的描述,只保留clinical stage为 stage IA2到IIA的样本。筛选完得到182个样本。
接下来找到pathologic_N,进行筛选。这里需要简单介绍一下TNM分析。N代表淋巴结。恶性肿瘤病人存在或不存在淋巴结转移,可能是单发转移也可能是多发转移。N0代表没有淋巴结转移,N1、N2、N3代表淋巴结转移的程度,不同肿瘤代表的程度不一样,数字越大代表淋巴结转移越多。经过stage筛选之后,这里的N只有N0和N1。那么N1就代表是淋巴结转移的样本,也就是原文中的lymph node metastasis(LNM+)。更多临床信息解读可以参考肿瘤TNM分期。
这就和原文中的表1中的数字相同了。
接着我们检查一下相应的Tumor Grade样本数是否正确。由于满足上面筛选条件的样本的Tumor Grade只有G2,G3和NA这三种了。我们把G2的数目作为G1+G2的数目,正好是17个,跟表1中的样本数吻合。
我们把G3的数目作为G3+G4的数目。正好14个,跟表1中的样本数吻合。
而NA的个数为1,也与表1中的样本数吻合。
挑选LNM-样本,感兴趣的同学可以练练手。