揭秘可变剪切研究的本质
欢迎关注”生信修炼手册”!
可变剪切指的是一个基因由于剪切方式的不同从而产生了不同的转录本,很多人对于可变剪切的研究有很多的困惑,比如有没有现成的软件可以研究单个样本中的可变剪切事件,多组间的可变剪切差异分析是基于什么原理?
之所以存在这样的困惑,是我们一直以来都是通过使用现成的软件来进行分析,而没有深入思考分析的本质造成的。
在转录组的数据分析中,如果我们得到了一个转录本的序列,而这个转录本序列和已有的转录本相比,缺少了其中的某个exon, 如下图所示
就可以得出结论,我们检测到了该基因的外显子跳跃Exon Skipping这样一个AS事件。
从这个例子可以看出,判断可变剪切事件的本质,就是将从数据中得到的转录本序列和已知的转录本序列比较,去分析和鉴别符合各种可变剪切类型的转录本。
理解到这一步,分析的思路就很清楚了,首先我们需要利用测序数据得到转录本的序列,专业点的说法叫做转录本组装,这一步可以通过cufflinks
等软件实现,其次我们还需要一个软件,可以将转录本进行比较,判断可变剪切的类型,比如ASprofile
等软件。
是否存在可变剪切事件,通过转录本组装和比较就可以得出结论,对于可变剪切的差异分析,其实就是对那些可变剪切产生的isofrom进行定量,然后进行差异分析,定量和差异分析是转录组分析的核心步骤,有很多成熟的软件可以使用,而现有的可变剪切差异分析软件,比如rmats
, 其原理也是一样,只不过定量的模型和差异分析的算法更加有针对性,是专门对可变剪切事件设计的。
综上,可变剪切分析包含以下4个步骤
-
转录本组装
-
可变剪切事件识别
-
可变剪切转录本定量
-
差异分析
在这几步中,核心是可变剪切事件的识别,重点是理解各种可变剪切事件的类型,对于定量,需要理解表达量的衡量标准,是fpkm还是其他定量方式,差异分析的话,根据定量方式的不同差异算法也相应的改变。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!