文章套路funny生物信息

RNA-seq数据不仅仅是表达量

2020-01-06  本文已影响0人  因地制宜的生信达人

RNA-seq数据毫无疑问是目前NGS领域被使用最频繁的了,但是大部分科研人员对它的理解,还停留在表达量层面,尤其是基于基因的表达量,无非就是分组,然后走差异分析这样的统计学检验,绘制火山图和差异基因热图,上下调的通路。

先不说大家对RNA-seq数据的标准分析是否一定是对的,这样的简陋的分析其实是对数据的暴殄天物!

首先可以分析差异转录本,可变剪切

看到一篇2019年5月发表在Molecular Neurodegeneration杂志的文章:TREM2 brain transcript-specific studies in AD and TREM2 mutation carriers 把普通的RNA-seq数据根据自己的生物学背景挖掘了一下。背景知识需要去搜索了解Triggering Receptor Expressed in Myeloid cells 2 (TREM2)这个基因,以及它的3个转录本。

都是European-Americans,测序数据是:

来源于3个不同的机构:

每个样本平均测序数据量是 134.9 million ,是2 × 101bp的测序策略。

其中2个机构的数据是已有的,数据下载方式:

转录组数据分析流程,主要是软件选择,参考基因组版本:

关于转录本的差异分析,我们分享过salmon+DRIMseq流程,在前些天的推文里面,见:每月一生信流程之rnaseqDTU(差异转录本)

在文章导论大量介绍了TREM2)这个基因,以及它的3个转录本。同时看了3个队列的这个基因的3个转录本的表达量情况。

We were able to detect and quantify the levels of three TREM2 transcripts ENST00000373113, ENST00000373122 and ENST00000338469 using RNA-seq data from AD and control brains from three different, independent studies.

不过这样的分析仍然是片面的,因为作者仅仅是关心自己生物学背景的基因,下面的全局比较的总结表格其实是不可或缺的。

然后可以分析融合基因

看到[article] (2019) Transcriptome analysis offers a comprehensive illustration of the genetic background of pediatric acute myeloid leukemia. Blood Adv 文章就是日本研究团队的 [RNA-seq] in 139 of the 369 patients with de novo pediatric AML ,这样文章落脚点就是基因融合事件,54 in-frame gene fusions and 1 RUNX1 out-of-frame fusion in 53 of 139 patients.

在大的病人队列里面,提供实验验证了 258 gene fusions in 369 patients (70%) 。

因为有RNA-seq数据的只有139个病人,所以 突变全景图如下:

甚至找到的基因融合事件,可以当做是病人的一种表型信息进行分析:

关于可变剪切和融合基因的RNA-seq数据分析教程

因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧:

最后友情宣传生信技能树

上一篇下一篇

猜你喜欢

热点阅读