基因组便捷工具系统进化

Linux下提全部基因的启动子

2023-11-13  本文已影响0人  球果假水晶蓝
// gff to bed
python  -m jcvi.formats.gff bed --type=gene --key=ID  Soffic.v20191009.gff3  > gene.bed
samtools faidx Soffic.genome-hic20191009.fasta
// 基因 上游2000bp region
bedtools flank -i gene.bed -g Soffic.genome-hic20191009.fasta.fai  -l 2000  -r 0 -s > promoters.bed
// 根据region 提序列
bedtools getfasta -s -fi Soffic.genome-hic20191009.fasta  -bed promoters.bed -fo promoters.fa -nameOnly
更简单的方法
#gff3格式转gtf格式)
gffread  -T  -o  Ft.gtf  Ft.gff3
#提取基因上游序列
seqkit  subseq   --gtf Ft.gtf  \ #鉴定到基因家族成员的gtf文件
--feature transcript   \ # 提取转录本上游
--up-stream 2000   \ # 提取长度
--id-ncbi    \ # 输出的id格式
--only-flank    \ # 不包括feature本身序列
--gtf-tag  transcript_id   \ # 输出结果添加转录本id
genome.fasta  > gene.upstream.fasta
上一篇下一篇

猜你喜欢

热点阅读