利用RNA数据识别SNP
今天跟大家分享一篇16年发在核酸研究上的在不借助参考基因组的情况下,利用转录组数据进行SNP分析的文章。
一、摘要
SNP是遗传标记,其识别对于关联分析至关重要。但是目前的分析更多的依赖于参考基因组,这导致很多的无参项目,非模式生物无法分析。为此文章开发了一个方法,即利用转录组数据进行SNP的识别、定量、差异表达、对编码蛋白的影响等。文章利用该方法与其他有参考基因组的方法作比较,证明这套方法效果还不错,并且该方法对于无参、有参均适用。
二、背景介绍
理解复杂表型的遗传背景仍然是生物学中较为重要问题。目前经典的方法通常会对多个个体进行测序分析,这种方法可以一次性检测多个位点,通常称为GWAS,但是这种方法适合于人和模式生物,因为整体的GWAS花费还是很高的,并且由于非模式生物没有参考基因组,GWAS也不实用。
但是如果我们研究的目的是确定哪些变异和表型相关。那么似乎流程就不用那么复杂和昂贵。可以利用转录组进行分析。不借助参考基因组,直接利用转录组进行分析。在不要求对基因进行分型的情况下,甚至可以将个体进行混合来进行测序和分析。当然即使在存在参考基因组的情况下,利用转录组进行分析也可以作为高度重复区域分析的一个补充,对结果的一个优化。
文章利用这套流程对人、某昆虫、果蝇进行了相应的验证,发现其分析效果较好,确实可以找到相应的分歧的位点。流程还对这些位点的变异进行了研究。由于其变异可以直接相应编码蛋白,所以流程还对其编码的蛋白造成的影响进行了评估和分析。
三、材料和方法
文章利用一系列已有的方法开发出一套流程,这套流程可以直接利用RNA-seq鉴别出Condition specific SNP,并且对于造成的功能也可以进行研究。
1、SNP鉴定
KISSPLICE软件是近期发表的软件主要用于寻找可变剪切,同时其输出结果中也有indel和SNP,流程这里使用的是软件识别SNP的功能。其大致原理如下图
2、过滤掉测序错误和不准确的重复序列
SNP是通过组装过程中的bubble进行区分的,但是影响bubble的原因有可能是假阳性的结果(测序错误,不准确的重复)首先对于测序错误,文章会过滤掉覆盖度较低的SNP,当然这里对于检测稀有SNP有很大的影响,文章设置了这个参数,在具体项目分析的时候这里要注意。
另外不准确的重复序列也会到时出现假的SNP。文章设置了一个参数b,如果bubble出现的路径较多,超过b,就会被过滤掉。这里默认是5,在具体项目分析中也应该注意。
四、预测SNP对蛋白的影响
从流程中也可以看出这一步是如何做的,就是利用得到的SNP和组装的转录本进行比对,然后确定SNP是否位于CDS区,然后估计其对蛋白编码造成的影响,是无义突变,还是有义突变。
五、统计学分析
在上面的分析中我们寻找到了某个变异,但是这个变异跟实验条件相关的程度是需要进行评估的。(就是这个变异跟实验条件相关的情况评估)
文章设计了一系列的方法,如线性回归等。
六、结果评估
文章首先在人上进行了实验,然后对某昆虫,还有果蝇进行了研究。并且跟其他的软件进行了比较。以一个模式生物分析结果为例。
1、变异检测
在变异检测上,文章认为虽然没有利用参考基因组。但是对于识别SNP的准确性来说,跟GATK还是能媲美的。另外发现文章中的方法对于考虑到可变剪切和过滤掉不准确的重复之后效果更好。
2、差异定量和差异统计学分析
由下图结果,可以看出程序可以较为准确的区分出跟实验条件相关的SNP.
3、核酸改变导致编码蛋白变化的情况统计
参考文献
Lopezmaestre H, Brinza L, Marchet C, et al. SNP calling from RNA-seq data without a reference genome: identification, quantification, differential analysis and impact on the protein sequence[J]. Nucleic Acids Research, 2016, 44(19):gkw655.
欢迎关注我们社区和公众号~~