生物信息学从零开始学生物信息学与算法菜🐣日记——走R包

菜🐣日记-转录组edgeR分析差异基因及案例演示

2019-05-24  本文已影响29人  美式永不加糖

菜🐣的第一次正式上手R,相当于翻译了 edgeR 这个包的 UserGuide,跑了第一个 case
眼看写了这么多字,还是发一下比较好,万一有人看呢

edgeR简介

edgeR 可以应用于任何可产生基因组特征数据(read counts)的技术,能够为 RNA-seq 实验中评估差异表达、ChIP-seq 实验中差异标记提供统计程序。该R包具备适用于多组实验的精准统计法,同时还具备广义线性模型(glms)的统计学方法——适用于不同复杂程度的多因素实验。有时人们将前者称为 classic edgeR,将后者称为 glm edgeR。然而上述两种方法是互补的,并且时常在数据分析中被结合使用。大多数 glm 函数可以通过函数名称中的 "glm" 识别,这类函数可利用似然比检验或拟似然F检验检测差异表达。edgeR 的功能的一个重要特点是,不论 classic 和 glm 两种方法,都属于经验贝叶斯方法,从而能够在实验只具有最小水平的生物学重复时,依然能够判断出基因特异的生物学差异。edgeR 可应用于不同水平的差异表达,如基因、外显子、转录本、标签等,分析外显子水平时可轻易地检测出可变剪切或异构体特异性差异表达。

案例分析

RNA-seq —— 口腔肿瘤 vs 对应的正常组织 (RNA-Seq of oral carcinomas vs matched normal)

分析的目的是检测肿瘤和正常组织对比下差异表达的基因,这个案例可以体现 edgeR 中 GLM 法的工作能力。

1.edgeR 安装
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("edgeR")
2.数据读取

下载文章 Tumor Transcriptome Sequencing Reveals Allelic Expression Imbalances Associated with Copy Number Alterations 中的 Table S1。

3.注释
5.筛选及归一化 (Normalization)
6.数据挖掘 (Data Exploration)
7.设计矩阵
8.估计数据分布
9.差异表达
10.GO分析

Setup Info

上一篇下一篇

猜你喜欢

热点阅读