生物数据库生信文献可变剪切与基因复制

可变剪切-微信搜狗搜索第一页

2019-12-02  本文已影响0人  小梦游仙境

先做个小松鼠吧,因为对可变剪切实在知之甚少,所以首先是搜狗搜索,选择前十条,做大致性理解。搜索每个大标题参考后的的内容都可以直接搜索到原文。

1.参考:rMATS差异可变剪切的那些知识点

我们常见的可变剪接事件有5种:

介绍rMATS(multivariate analysis of transcript splicing)

一款分析差异可变剪接的工具,用于有设置差异分组需求的RNA-seq数据集。通过rMATS的统计模型将唯一比对到转录本(the exon inclusion isoform或the exon skipping isoform)的reads数定义为剪切位点的inclusion level,并用likelihood-ratio test得到P value,Benjamini Hochberg算法校正后的FDR值来衡量差异分组中不同样品在Inclusion Level上的差异。简而言之,经过rMATS复杂算法,展示给我们就是在不同样品中发生过可变剪切的一个基因list(你找你关注的基因),囊括上述所说的5种剪切事件。

具体流程搜索原文

2.参考:Iso-Seq应用系列(二):可变剪切分析

还有一些软件将可变剪切事件分为7种类型,加上可变的起始或末端外显子(Alternative first/last exon),这两种形式更有可能是可变启动子、可变polyA位点形成的。

image-20191130190243698

可变剪切在动物的生长发育、细胞分化、细胞功能等方面具有重要作用。可变剪切在肿瘤中经常发生,与肿瘤发生发展密切相关。研究发现可变剪切影响了那些在肿瘤中经常发生突变的蛋白基因家族,改变了肿瘤相关信号通路中的蛋白-蛋白相互作用,说明可变剪切也是驱动肿瘤发生的一种重要原因(AS drivers

目前利用二代Illumina高通量测序方法进行可变剪切的检测与分析非常普遍,但由于二代测序的读长短,在准确预测完整的isoform全长序列方面无能为力,同时存在难以判断转录起始位点(TSS)和转录终止位点(TTS)的位置、难以判断哪些外显子是连接在一起的问题。Kuo R I, Tseng E, Eory L, et al. Normalizedlong read RNA sequencing in chicken reveals transcriptome complexity similar tohuman[J]. Bmc Genomics, 2017, 18(1):323.。

基于单分子实时测序技术(SMRT)的三代全长转录组,具有读长超长的优势,可以直接获取mRNA全长,因此可轻松判断TSS和TTS的位置、剪接位点的位置,轻松获取各个spliced isoforms的全长序列,在可变剪切研究方面具有独特的优势。

接下来是利用SMRT技术和Illumina测序分析与比较草莓发育过程中的可变剪切事件的一篇文章,可去看原文

3.参考:我是如何做可变剪切

同样是解释:可变剪切又叫选择性剪切(Alternative splicing, AS),生物的基因序列包含了外显子(exon)内含子(intron),两者相互间隔。在mRNA前体的剪接过程中,参加剪接的外显子可以不按其线性次序剪接,内含子也可以不被切除而保留,即一个外显子或内含子是否出现在成熟mRNA中是可以选择的,这种剪接方式称为选择性剪接。AS也是转录本复杂性的一个主要来源。

image-20191130190421957

1、外显子跳跃(Exon Skipping)

2、内含子保留(Intron Retention)

3、5'端可变剪接(Alternative 5' splice Site)

4、3'端可变剪接(Alternative 3' splice Site)

5、最后一个外显子可变剪接(Alternative Last Exon)

6、第一个外显子可变剪接(Alternative First Exon)

image-20191130191428555

上图参考:https://www.cnblogs.com/daimakun/p/5079689.html

接下来介绍SGSeq是用来分析可变剪切的R package

4.参考:癌症相关可变剪切的深度分析~~

一篇文献解读,英文原文是:Comprehensive Analysis of Alternative SplicingAcross Tumors from 8,705 Patients.

跳转:https://mp.weixin.qq.com/s/VtRBjrsznjKZ8MuqgPZKUg

对来自8,705名患者的32个癌症基因组图谱的选择性剪接进行了全面分析,通过重新分析RNA和全外显子组测序数据来检测可变剪接事件和肿瘤变异。与正常样本相比,肿瘤的可变剪接事件多达30%。体细胞变体与可变剪接事件的关联分析证实了SF3B1和U2AF1中变体的已知的反式关联,并鉴定了额外的反式作用变体(例如,TADA1,PPP2R1A)。许多肿瘤有数千个在正常样本中无法检测到的可变剪接事件;平均而言,我们识别了约930个外显子-外显子结合点(“neojunctions”),这些在GTEx中一般是不能被发现的。从临床蛋白质组肿瘤分析联盟中的乳腺和卵巢样本数据,本文验证了每个肿瘤样本中约1.7个新结合点和约0.6个单核苷酸变体衍生肽,这些也被用来预测主要的组织相容性复合物-1的结合剂(假定的新抗原)。

5.参考:可变剪切的意义和重要性

这个关于可变剪切的类型的示图非常好

image-20191130193743987 image-20191130193803700 image-20191130220629676 image-20191130193854216 image-20191130193911983

6.参考:什么?还是可变剪切?

英文原文:Genome-Wide Profiling Reveals the Landscape of Prognostic Alternative Splicing Signatures in Pancreatic Ductal Adenocarcinoma

方法部分主要包含以下几个方面:
1、数据获取:TCGA获得PDAC表达谱数据和生存信息,并通过SpliceSeq处理获得PDAC的可变剪切数据,同时在SpliceAid2数据库上获得剪切因子信息。

2、通过单因素cox分析获得AS的PSI值与患者预后(OS和RFS)之间的关系。

3、构建预后分析模型,并绘制ROC曲线评估PDAC预后模型的准确性。

4、剪切相关网络构建,评估剪接因子的表达水平与AS事件的PSI值之间的潜在关联。

7.参考:可变剪切在癌症中的研究

插播三个文章中提的思路,既然看到了,就记录下来

  1. 1分钟给你5分的SCI论文思路!要不要?

  2. TCGA-人类癌症数据库差异表达基因挖掘课程提到:构建多因素生存分析模型

  3. 再挖TCGA,发篇SCI 提到:风险比,多因素生存分析,ceRNA构建网络的数据库

    文章是:Genome-Wide Profiling of Prognostic Alternative Splicing Signature in Colorectal Cancer.

    研究思路:

  4. 从TCGA数据库下载转录组数据,采用SpliceSeq进行可变剪切分析

  5. 针对可变剪切事件,进行单因素的Cox生存分析

  6. 针对显著的单因素可变剪接事件,进行多因素的Cox生存分析

  7. 构建预后预测模型,并进行性能评估

  8. 剪切因子和剪切事件进行关联分析,筛选出重要的剪切因子

8.参考:使用SGSeq探索可变剪切

是老大的关于SGSeq包的代码过程,点击https://mp.weixin.qq.com/s/XZX5pGapOMQ7EXMiJVHE4w可直接跳转

image-20191130211618511

9.参考:CircSplice:一个简单好用的可变剪切事件预测软件

是研究circRNA的,能不能有点启发呢?

用的软件是CircSplice,他们提出的这样一个算法,可以做四种类型的circ-AS(SE,RI,A5SS,A3SS)然后在肾癌中做了验证。

软件见: (http://gb.whu.edu.cn/CircSplice or https://github.com/GeneFeng/CircSplice)

生信菜鸟团的解释跳转:https://mp.weixin.qq.com/s/or0vK2xYWUKrCwAdXCFBjg

image-20191130214409454

10.参考:100篇泛癌研究文献解读之可变剪切事件大起底

100篇泛癌研究文献解读之可变剪切事件大起底:https://mp.weixin.qq.com/s/QT-1TQEsVm92q203-SdgPw

然后泛癌目前全部目录:http://www.bio-info-trainee.com/4132.html点击直接跳转

提到了三篇文章:

现在新的疑问是,上面第三个也单独提到了剪切因子PHF5A,与第四个大标题中 SF3B1和U2AF1中变体也是在很多可变剪切变体中单独提到的,同时那篇文章中也提到了发现了多少多少个可变剪切事件,但是着重提到的就是说明有某种特别的意义吗

最后友情宣传生信技能树

上一篇下一篇

猜你喜欢

热点阅读