annovar注释非常规参考基因组的snp

2022-08-24  本文已影响0人  生信小菜鸡111

一、文件准备

基因组文件:r498.fa

与基因组对应的注释文件:r498.gff (最好是gtf 格式,后续需要将gff 转化为gtf )

vcf文件:fs32.vcf

二、使用gffread 将 gff 转化为gtf 

安装: conda install -c bioconda gffread

使用:gffread my.gff3 -T -o my.gtf

三、用gtfToGenePred工具将gtf或gff3文件转化为reference_refGene.txt (软件来自http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/)

增加权限:chmod +x  ./gtfToGenePred

转化:./gtfToGenePred -genePredExt  r498.gtf  R498_refGene.txt

四、将ref.fa文件转化为SP_refGeneMrna.fa 

perl retrieve_seq_from_fasta.pl --format refGene --seqfile r498.fa R498_refGene.txt --out R498_ensGeneMrna.fa

将 R498_ensGeneMrna.fa 和 R498_refGene.txt 移动到r498文件夹中

五、vcf转化为annovar格式

perl convert2annovar.pl  -includeinfo -allsample -withfreq -format vcf4 syri.vcf >fs32.sample.avinput

--includeinfo: 输出文件含有特定额外的信息 

--allsample: 多样本的vcf,输出多个样本的结果 

--withfreq: 输出文件包含频率信息

--format: 输入文件格式

六、进行注释

perl table_annovar.pl fs32.sample.avinput r498/ -buildver R498 -outfile fs32 -protocol refGene -operation g

r498: 含有R498_refGeneMrna.fa和R498_refGene.txt的文件夹

--buildver: 基因组建立的版本6--outfile: 输出文件前缀

--protocol: 逗号分隔的注释流程,代表库的名字

--operation: g(gene),r(region),f(filter)


最终得到 exonic_variant_function和variant_functionwen结果文件

annovar 注释除人类以外的SNP - 斩毛毛 - 博客园 (cnblogs.com)

(15条消息) annovar 注释非人类基因_田田田�的博客-CSDN博客

上一篇下一篇

猜你喜欢

热点阅读