TCGA数据分析

TCGA metadata.json中注释信息的提取

2019-04-26  本文已影响0人  dming1024

TCGA数据库中各类癌症的类型缩写,可参考这篇同学的文章:
https://www.jianshu.com/p/3c0f74e85825

当我们通过gdc-tools下载得到TCGA数据库中RNA,miRNA等数据时,还需要得到这些样本的注释信息,一般保存在metadata-xiazairiqi.json中,既可以通过R语言的rjson包进行注释信息的提取,也可以通过perl语言+shell脚本进行信息的提取:
先写一个简单的perl脚本 vim meta.pl

#!/usr/bin/perl -w
while(<>){
  if(/file_name.*gz/ | /submitter_id.*TCGA.*\, $/)
  {
    print $_;
  }
}

再通过简单的shell脚本,就可以得到注释我们需要的注释信息:第一列file_name,和你下载的数据文件名对应;第二列 TCGA样本编号,通过编号我们可以获取它的分组信息,简单可这样理解,即0~10以内是癌症,10以上时正常对照组

 cat metadata.cart.2019-04-26.json |perl meta.pl |paste - -|less -SN
      1   "file_name": "555de98a-5925-41d0-8095-7ae42c480861.htseq.counts.gz",        "entity_submitter_id": "TCGA-A1-A0SP-01A-11R-A084-07",
      2   "file_name": "16942d90-640a-4f7f-9822-e613cd44b3a7.htseq.counts.gz",        "entity_submitter_id": "TCGA-A8-A07I-01A-11R-A00Z-07",
      3   "file_name": "86272569-4b9c-4d44-b8f1-daeb9348a6e0.htseq.counts.gz",        "entity_submitter_id": "TCGA-EW-A1IZ-01A-11R-A13Q-07",
      4   "file_name": "7f2cf950-b5e1-4a01-a44b-88a4e3303233.htseq.counts.gz",        "entity_submitter_id": "TCGA-B6-A0RH-01A-21R-A115-07",
      5   "file_name": "7af2075c-0386-4971-ae25-375330ef6cec.htseq.counts.gz",        "entity_submitter_id": "TCGA-A7-A0DB-01A-11R-A00Z-07",
      6   "file_name": "78f2dfc0-9452-4547-b9a9-eb9dc920a4a9.htseq.counts.gz",        "entity_submitter_id": "TCGA-UL-AAZ6-01A-11R-A41B-07",

或者直接使用perl脚本进行处理

perl脚本

#!/usr/bin/perl -w
my @array;
while(<>){
  chomp;
  if(/file_name.*gz/ | /submitter_id.*TCGA.*\, $/)
  {
    push @array,  $_;
  }
}

my %hash = @array;
foreach my $k (keys %hash){
 print "$k $hash{$k}\n";
}

运行perl脚本

cat metadat.json| perl meta.pl 
"file_name": "555de98a-5925-41d0-8095-7ae42c480861.htseq.counts.gz",        "entity_submitter_id": "TCGA-A1-A0SP-01A-11R-A084-07",
"file_name": "16942d90-640a-4f7f-9822-e613cd44b3a7.htseq.counts.gz",        "entity_submitter_id": "TCGA-A8-A07I-01A-11R-A00Z-07",
"file_name": "86272569-4b9c-4d44-b8f1-daeb9348a6e0.htseq.counts.gz",        "entity_submitter_id": "TCGA-EW-A1IZ-01A-11R-A13Q-07",

关于TCGA编号信息详细的讲解,可以参考这位同学的文章
http://www.biowolf.cn/TCGA/tcga_sample.html

上一篇 下一篇

猜你喜欢

热点阅读