日常记录

snpEff

2019-04-04  本文已影响70人  YX_Andrew

snpEff(http://snpeff.sourceforge.net/index.html)是利用JAVA语言开发的一个突变位点注释工具,安装和使用均相对简单。

1.软件的下载和安装

下载最新版本并解压缩

wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
unzip snpEff_latest_core.zip

解压出来的snpEff.jar文件即为snpEFF的主程序,可直接用java命令运行:

java -jar snpEff.jar …

利用snpEff进行注释

部分结果如下:染色体 位置 参考基因组 变异碱基 注释信息

#CHR  POS  REF  ALT  ANN  
chr1A 6562488  C  T ANN=T|stop_gained|HIGH|TraesCS1A01G010900|
TraesCS1A01G010900|transcript|TraesCS1A01G010900.1|protein_coding|
2/2|c.271C>T|p.Gln91*|271/471|271/471|91/156||
,T|upstream_gene_variant|MODIFIER|TraesCS1A01G011100|
TraesCS1A01G011100|transcript|TraesCS1A01G011100.1|
protein_coding||c.-3749C>T|||||3749|
从上可看出ANN标签将注释信息以”|”分割,每个部分都有其对应的意义,比如从ANN=开始:

1. Allele:T表示该突变在参考基因组上的碱基
2. Annotation:stop_gained表示突变类型
3. Putative_impact:表示snpEff对这个突变的影响的预测,有4个程度(HIGH,     MODERATE, LOW, MODIFIER)
4. Gene Name:TraesCS1A01G010900表示该突变所在基因的基因名,如果是这个突变位于intergenic,则使用该突变离的最近的一个基因的名称
5. Gene ID:TraesCS1A01G010900表示gene id
6. Feature type:transcript表示突变所在区域的类型,比如transcript,     motif等
7. Feature ID:TraesCS1A01G010900.1表示Feature type对应的id
8. Transcript biotype:protein_coding表示该基因是编码蛋白的基因
9. Rank/total:2/2表示突变发生在第二个外显子上,总共有2个外显子
10. HGVS.c:c.271C>T表示DNA水平的突变
11. HGVS.c:p.Gln91*表示氨基酸水平的突变
12. cDNA_position/cDNA_len:     cDNA水平上突变位置和cDNA总长度
13. CDS_position/CDS_len:     CDS水平上突变位置和CDS总长度
14. Protein_position/Protein_len:氨基酸水平上突变位置和氨基酸总长度

参考:
http://snpeff.sourceforge.net/SnpEff_manual.html#input

上一篇下一篇

猜你喜欢

热点阅读