全基因组/外显子组测序分析生信小白funny生物信息

变异信息那些事(下)

2019-01-03  本文已影响44人  刘小泽

刘小泽写于19.1.3 又安心学了一天🤠学习时光过得真快
之前写到了VCF介绍(https://www.jianshu.com/p/3045aadbd723)和基本操作(https://www.jianshu.com/p/9aa8ca6e565c
假设找到变异,然后呢?

变异位点的注释

我们得到变异位点,但仅仅是知道了它们在基因组上的位置信息和相关的碱基信息。那么还存在许许多多的疑问没有解决:

这个位点是在基因上吗?是内含子还是外显子区域?这个突变对基因功能产生了什么影响?对于转录翻译有没有影响?除了研究的样本,还有没有其他样本也出现了这个变异?有的话是什么人种,又是什么病例?

这些问题都要靠变异注释来解决

一般来说,变异注释分为:突变频率注释、变异的蛋白功能危害注释、剪切位点突变危害注释、突变相关的疾病注释

突变频率注释

做这个内容的数据库有许多,其中比较重要的有dbSNP、1000人基因组项目(1000 Genome)、ExAC、gnomeAD

变异的蛋白功能危害注释

剪切位点突变危害注释

如果突变发生在剪切位点附近,我们可以判断它对剪切的危害。可以用的软件有:DbscSNV、Spidex、MaxEntScan

突变相关的疾病注释

练一个工具--snpEff

conda安装
$ conda install -y snpeff
看看snpeff目前有什么数据库
# 目前有42791个数据库
$ snpEff databases > listing.txt
找到Ebola相关数据库
$ cat listing.txt | grep Homo_sapiens
#GRCh37.75                                                   Homo_sapiens                                                                                               http://downloads.sourceforge.net/project/snpeff/databases/v4_3/snpEff_v4_3_GRCh37.75.zip
下载数据库
$ snpEff download GRCh37.75  
# 或者
$ wget -c http://downloads.sourceforge.net/project/snpeff/databases/v4_3/snpEff_v4_3_GRCh37.75.zip
进行注释
$ snpEff GRCh37.75 subset_hg19.vcf > subset_hg19.anno.vcf 
结果

主要还是看官方manual,得到的新注释的vcf中最明显的变化就是INFO列增加了一个字段ANN,默认ANN中又会给出几种信息

参考:snpEff manual http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf

http://snpeff.sourceforge.net/SnpEff_manual.html


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇 下一篇

猜你喜欢

热点阅读