「学转录组入门生信」四周实战总结

2019-08-05 本文已影响47人 xuzhougeng

在四周之前，我写了一篇推送一个月能通过转录组入门生信吗？，于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了，我对这个计划进行一个阶段性的总结。

答疑解惑

首先要感谢在过去的四周里，30多位加入了我们的付费答疑群的小伙伴。因为他们的支持，让我和我的另一个小伙伴能够坚持下去，当然我们也尽心尽力地回答了他们提出的疑问。举几个例子，

例1

例2

例3

在四周时间里，我们制定了每一周的学习计划，这里也分享给有需要，愿意自己花时间去检索遇到问题的小伙伴。

第一周的目标是配置环境，学习路径如下

学有余力:
1. 整理conda安装的软件的软件说明书
2. 明确不同版本基因组序列的差别
3. 理解基因组序列和注释文件之间的关系
4. 了解Linux的管道符号"|"和管道命令

第二周的目标是基于二代测序获得表达量矩阵，学习路径如下
1. 总结常见数据格式: https://www.bilibili.com/video/av59481324
2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720
3. 获取/建立索引: https://www.bilibili.com/video/av59769386
4. 数据比对: https://www.bilibili.com/video/av59772790
5. 基因/转录本定量: https://www.bilibili.com/video/av60006241
6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455

最终目标是拿到4个样本的表达量矩阵

学有余力：
1. 整理和转录组质控相关文献
2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果

第三周根据表达矩阵获取差异基因分为两个阶段

第一阶段：R语言入门

本周我们需要学习如何安装R语言以及如何入门，随后我们需要学习R语言的基础命令和数据类型，接着我们学习如何安装R包，查阅帮助文档；同时我们需要学习如何使用R project管理我们的项目，整合我们的数据，最后在DEseq2包的帮助下，我们使用上周学习获得的表达矩阵计算得到差异基因：

第二阶段：R包使用及进阶学习

第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段：

第一阶段：一代富集分析——GO和KEGG

使用biomaRt包注释差异基因信息
- FPKM的计算
- 理解gene id
- 转化ENSEMBL id到gene symbol及gene features
- org.**.eg.db包的学习
使用ClusterProfile包对差异基因进行富集分析
- ClusterProfile学习
- Over Representation Analysis简介
- ORA算法简介
GO、KEGG分析及结果解读
- 数据库解读
- 构建orgdb
- 富集结果解读
- 作图及导出
ggplot2包初识
- ggplot2模仿clusterProfiler作图

第二阶段：二代富集分析——GSEA

输入文件的格式解读与构建
- Expression dataset file (res, gct, pcl, or txt)
- Phenotype labels file (cls)
- Gene sets file (gmx or gmt)
- Chip (array) annotation file (chip)
GSEA参数的选择与基因集的构建
- Molecular Signatures Database学习
- GSEA下载和界面操作
- 参数的选择（通俗解读）
常见报错原因解读
结果解读
- NES
- FDR value
生物学意义解析
- 数据库的选择
- 没有对应物种数据库时的选择