ACMG指南解读笔记(0)- 定个小目标
2019-06-21 本文已影响0人
十三而舍
- 好久没有更新内容,照理来说对于call出来的SNVs/INDELs,下一步的工作就是筛选了,一般的筛选方式大体会有这些步骤:</br>
- 保留数据库中已报道的致病位点(Clinvar、HGMD)</br>
- 过库筛选(人群频率数据库)</br>
- 保留coding区域(一般是exonic和splicing,下同)</br>
- 保留有害位点(通过预测软件打分)</br>
- 去除非高度保守区同义突变(GERP++等判别)</br>
- 遗传模式过滤</br>
- 以及其他</br>
- 如果在某疾病患者中(指单基因遗传病,符合孟德尔遗传定律,下同),找到了该疾病已经报道的致病突变位点,那大体来说,这个位点就会被判断为该患者的致病突变。</br>
- 在这里,我们一般更认可HGMD中收录的记录,相对来说,Clinvar就是一个比较“脏”的数据库,因为这个公共数据库中的位点信息是大家都可以上传的,没有经过专门的筛选和“清洗”,真实性相对较差。而反过来,Clinvar是一个免费数据库,可以随时下载使用;HGMD的专业版收费是真的高,一般的课题组怕是很难吃得消,HGMD的公开版不收录近三年的信息(别看三年,差异很大,尤其是现在科学进展越来越快),只提供检索,不提供下载。所以要是买不起HGMD,Clinvar也就将就一点凑活用吧。</br>
- 但是,经过上面的筛选,其实大多数病例的致病原因都是无法解释的。那么就需要我们常规的一些筛选策略了。其中首选的就是基于人群频率数据库的过滤。我们一般认为,一个变异在多数人身上存在,那这个变异应该是良性的(benign),看文献,绝大多数的方法里都有这一步。</br>
- Annovar提供了很多的人群频率数据库,那么我们怎么选呢?</br>
- 考虑到种族特异性,尽量选择东亚人群数据库(1000gEAS等)</br>
- 尽量选择多个数据库(1000g,ESP6500等)</br>
- 尽量选择正常人群数据库</br>
- 考虑选择大家常用的知名数据库(1000g,gnomad,ESP6500等)</br>
- 阈值的话可以考虑5%(常见变异和稀有变异的交界),1%(很多文献都是这个值),0.5%(稀有突变和罕见突变的交界),你要说区别有多大,得看你疾病的发病率了,我们做罕见疾病,筛选到后来,基本剩下的位点的人群频率都比上面三个数小,所以区别不大。但这一步能帮你筛掉很多的变异。</br>
- 保留coding是因为noncoding的变异没有很好的筛选策略,而80%的遗传病病因可以用coding区突变来解释(教科书上这么说的),所以现在做WES的很多。</br>
- 通过预测软件对位点的有害性进行打分。SIFT,Polyphen,MutationTaster,CADD是我们常用的四个软件,一般说半数以上预测有害,就认为有害。当然,既然是预测软件,就存在一定的偏差,可能会漏掉一些不常规的有害变异,或者保留一些良性变异。</br>
- 同义突变不改变氨基酸,但目前的研究发现,并不是说同义突变就不致病,但是对于大多数同义突变,尤其是非保守区的同义突变,我们还是认为它是良性的。</br>
- 遗传模式是基于家系数据进行判断致病性的一个比较好的方式。比如,当该疾病只在患者身上有临床表现,我们就考虑纯合突变,新发突变或复合杂合突变。</br>
- 同时也会着重考虑OMIM上该疾病已经报道的相关基因上的变异位点。</br>
- 还有一些其他的我也没考虑到的过滤方式(欢迎大家发邮件交流补充!!!)</br>
- 可能有一些朋友要问,我为什么要根据上面的条件过滤?依据又是什么??还有什么值得注意的地方???有没有什么金标准????</br>
- 说到金标准,还真是有的。</br>
- 2015年的时候,由美国医学遗传学与基因组学学会(The American College of Medical Genetics and Genomics, ACMG),分子病理协会(the Association for Molecular Pathology, AMP)和美国病理学家协会(the College of American
Pathologists, CAP)的代表撰写修订了序列变异解读的标准和指南,发表在nature子刊GIM上,指南原文在这里能看到,当然也可以去GIM上搜。</br> - 对于遗传专业术语不太了解的同学,可能在解读原版指南的时候很痛苦。那也不用怕,在该指南发布后,国内外超过30家单位的几十位业界大佬共同翻译了该指南,链接在这里,这样至少在解读上轻松了一半。</br>
- 在解读完该指南后,你就会发现,上述筛选条件,基本都有指南的影子。毕竟该指南是号称可直接应用于临床,所以理解该指南对于变异的筛选还是很有帮助的。</br>
- 但问题也是有的,以下所列都是个人观点,若是理解不当望指出:</br>
- 临床是临床,科研是科研,临床和科研的目的是不一样的,如果全用这套指南去科研,怕是很难找出新的位点或基因。</br>
- 该指南甚是全面了,但是很多证据的解读,不同的人怕是存在分歧的。</br>
- 该指南在理解上可能不是很难,但实际去判断就存在很大的困难了。</br>
- 2017年的时候annovar的作者王凯大神根据指南写了一个软件InterVar,发表在AJHG上,原文链接在这里,软件挂在github上,链接在这里,网页版软件的链接在这里,结果文件intervar_20180118在annovar上直接可以下载,方法可参考我之前的文章。只能说大神不愧是大神,真是一件喜大普奔的事情。但是存在一些问题:</br>
- 由于版权问题,作者用到的结果是基于Clinvar而不是HGDM</br>
- 由于不同的疾病本身存在的特异性,加之指南有些证据难以通过软件进行判断,intervar一些证据是默认为False的,需要手动判断</br>
- 网页版intervar虽然能手动较为直观的设定特异性参数,但是不利于批量判断,且不含indel信息</br>
- 本着加深学习的目的,我决定逐条解读这些证据(共28个证据,16个角度)。本来想自己一个人这么做的,发现难度不小,有些证据我真的很难正确的解读,想组队讨论,又找不到又闲又感兴趣的(身边做这个的人太少啦,所以特别希望能有人一起交流讨论)。所以就打算写成系列文章挂出来,接受广大人民群众的diss。</br>
- 我会基于中文版ACMG指南,参考InterVar文章和源码,较为详细的解读每一个证据(flag是立下来了,督促自己!),然后尽量重构Intervar。最后参考Sherloc: a comprehensive refinement of the ACMG–AMP variant classification criteria(基于指南的分析框架,让指南更便于实现)进行调整。</br>
水平有限,要是存在什么错误请评论指出,可发送邮件至shiyuant@outlook.com!请大家多多批评指正,相互交流,共同成长,谢谢!!!</br>
可以看我的主页(tongshiyuan.github.io),第一时间修改错误、发布新文章,简书上的文章可能无缘无故会被锁。</br>