Day 6 下载数据

2018-12-13  本文已影响0人  陈宇乔

任务

  1. 统计fa ID信息,并打开看看fa格式
  2. 探究gtf注释信息,
    第一:用grep awk 统计自己需求的内容,如提取各数据库的ID信息 到一个文本,
    第二:比较gencode 与 gatk ncbi gtf注释信息的差异;第三统计一下 gtf内gene、转录本、其他类型(如假基因,lnRNA)等信息的个数

操作记录:

  1. gtf格式第九行非常精彩,包含了gene的各种名字,包括重要的有:entrID,gene symble name,bio_type,gene_ID等!
    2.gtf默认是\t分隔的,所以第一次操作必须要用cut分隔,不然有一些数据会出现不整齐的情况。
####第一次分隔不要用awk错误例子示范
zless -NS Homo_sapiens.GRCh38.86.gtf.gz | awk -F ';'  '{print$3,$4,$5,$6,$7}'|awk -F '"' '{print$2,$8}'|awk '/^ENST/{print$0}'|cut -f2|sort|uniq |wc -l
####正确的方法:
less -S /home/vip25/database/NCBI/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|head -n 50|cut -f 9
########gtf文档的第九列内容很丰富包括了各种基因的名字
less -S /home/vip25/database/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|awk '$3=="gene"{print $0}'|cut -f 9|cut -d ';' -f 1,3,5|cut -d ' ' -f 2,4,6|less -S 

数据下载

下载参考基因组ensemble、UCSC、NCBI、Genecode的hg38参考基因组和gtf注释文件

google:ensemble ftp hg38
ftp://ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz

NSBI


第一种方法 第二种方法

下载地址
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

UCSC:


hg38参考基因组 hg38参考基因组

ensemble ftp


image.png

genecode感觉很精彩呀


genecode
上一篇 下一篇

猜你喜欢

热点阅读