比较基因组基因组组装go_kegg

比较基因组分析-数据准备

2023-03-08  本文已影响0人  Bioinfor生信云

比较基因组分析,首先需要选定要比较的物种,然后下载这些物种的基因组数据。

基因组数据准备

数据库

提供去除可变剪切的cds和pep
Gff/gtf文件需要过滤

蛋白序列和cds序列均包含所有转录本,需要过滤
gff文件包含所有转录本,需要过滤

由于可变剪切的存在,一条基因仅保留一条最长的转录本。蛋白、CDS序列ID需要和注释文件一致。

提取最长转录本

Phytozome 提供最长转录本数据,可以直接下载。当使用Ensembl 下载的数据时,可以参考以下脚本提取最长cds。

# 基因注释文件 Arabidopsis_thaliana.TAIR10.47.gff3
# cds序列文件 Arabidopsis_thaliana.TAIR10.cds.all.fa
# 蛋白序列文件 Arabidopsis_thaliana.TAIR10.pep.all.fa
# 基因组序列文件 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

## 去除gff3文件中ID部分多余字符
cp Arabidopsis_thaliana.TAIR10.47.gff3 Ath.gff3
sed -i 's/=gene:/=/g' Ath.gff3
sed -i 's/=transcript:/=/g' Ath.gff3
sed -i 's/=CDS:/=/g' Ath.gff3

## 基于gff3提取最长cds序列ID,并过滤gff3文件
perl ./gff_longest.pl Ath.gff3 Ath_id Ath_longest.gff3

## 提取最长的cds ID
awk '{print $2}' Ath_id > Ath_longest_id

## 基于最长的cds提取cds和蛋白质序列文件
seqtk subseq Arabidopsis_thaliana.TAIR10.cds.all.fa  Ath_longest_id > Ath_longest.cds.fasta

seqtk subseq   Arabidopsis_thaliana.TAIR10.pep.all.fa Ath_longest_id > Ath_longest.pep.fasta

## 如果没有cds和蛋白文件,也可以基于过滤后gff3文件从genome里提取cds并翻译成蛋白
gffread Ath_longest.gff3 \
-g Arabidopsis_thaliana.TAIR10.dna.toplevel.fa \ #基因组序列
-x Ath_longest.cds.fasta \ #输出cds序列
-y Ath_longest.pep.fasta #输出蛋白序列

欢迎关注Bioinfor生信云!

上一篇下一篇

猜你喜欢

热点阅读