转录组学

转录组直播课学习:第三天

2020-03-30  本文已影响0人  焱黎

下载参考基因组
所需的三个文件:1.基因组序列(genome.fa); 2.基因注释文件(genes.gtf);3.蛋白序列(proteins.fasta)(模式物种就不需要了蛋白序列了,这是进行功能注释使用的)

下载人的基因组序列fasta文件

$ wget http://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

下载人的gtf/gff文件

$ wget http://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.chr.gtf.gz

练习文章的参考基因是需要在github上下载:

$ git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git
$ cd Genome-data-of-Hanfu-apple
$ ls
HFTH1.gene.gff3.gz  HFTH1.gene.pep.fa.gz  HFTH1.genome.fa/
$ cd HFTH1.genome.fa/
$ ls 
Chr00.fa.gz  Chr01.fa.gz  Chr02.fa.gz  Chr03.fa.gz  Chr04.fa.gz  Chr05.fa.gz  Chr06.fa.gz  Chr07.fa.gz  Chr08.fa.gz  Chr09.fa.gz  Chr10.fa.gz  Chr11.fa.gz
Chr12.fa.gz  Chr13.fa.gz  Chr14.fa.gz  Chr15.fa.gz  Chr16.fa.gz  Chr17.fa.gz
$ gunzip *.gz
$ cat *.fa > genome.fa # 利用cat命令将多条染色体序列合并到genome.fa中
$ cd ..
$ gunzip HFTH1.gene.gff3.gz
$ less -S HFTH1.gene.gff3
$ gffread -T -o genes.gtf HFTH1.gene.gff3 # 利用gffread命令将gff文件转换成gtf文件
$ awk '$3=="gene"' HFTH1.gene.gff3 | wc
44677 402093 2335161 # 总共有44677个gene
$ awk '$3=="mRNA"' HFTH1.gene.gff3 | wc
44677 40293 3139347 # 总共44677个mRNA, 与gene数目相同,说明只研究到了mRNA水平
$ gunzip HFTH1.gene.pep.fa.gz # 解压蛋白质文件
$ awk -F '-' '{print $1}' HFTH1.gene.pep.fa > proteins.fasta # 由于下载的蛋白质序列不是以基因名开头的,而是mRNA名开头的,所以需要提取出来
上一篇 下一篇

猜你喜欢

热点阅读