NGS分析手把手教学:零基础RNA-seq转录组分析实践,两套方
2022-09-13 本文已影响0人
Jason数据分析生信教室

⚠️不想充值付费的小伙伴可以点赞,会随机挑选幸运观众赠送全文。
NGS分析手把手教学系列继WGS全基因组分析以后终于更新啦。这次是RNA-seq转录组分析。本文主要是指导操作流程,不会浪费篇幅在解释RNA-seq原理上。
本章会使用人类基因组,比较组间的差异基因。其他物种的数据同样适用。
所有代码都亲测可用(2022年9月),由于一些老旧版本的工具以及网络协议已经没法使用,所以也会有最新版本工具安装教学内容。除了需要修改路径和文件名,读者基本只需要复制黏贴就可以复现所有操作。
这次主要介绍的管道工具是运用在很多生信服务器上的国际标准STAR,以及另外一款很常用并且配置不高的笔记本也能快速运行的kallisto。各位可以根据自己的实际情况进行操作。
- 主要工具
fasterq-dump, lftp, R, STAR, kallisto, awk, RSEM
目录
- 获取RNA-seq数据-转换
1.1 创建工作文件夹
1.2 获取SRA数据清单
1.3 下载数据
1.3.1 安装sratools使用fasterq-dump
1.3.2 数据下载- 准备参考序列
2.1 下载序列
2.2 下载注释数据
2.2.1 STAR方案
2.2.2 kallisto方案- 比对和定量
3.1 STAR-RSEM-DESeq2 方案
3.1.1 STAR的安装
3.1.2 Index
3.1.3 比对
3.1.4 RSEM定量
3.1.5 DESeq2统计分析(LRT&Wald Test)和可视化
3.2 kallisto-sleuth方案
3.2.1 安装kallisto
3.2.2 Index
3.2.3 比对与定量
3.2.4 sleuth统计分析(LRT&Wald Test)和可视化
1. 获取RNA-seq数据-转换
1.1 创建工作文件夹
mkdir ~/Documents/expression
mkdir ~/Documents/expression/seq
cd ~/Documents/expression/seq
1.2 获取SRA数据清单
发表论文的时数据候都会上传SRA(Sequence Read Archive)。所以可以通过SRA编号去获取自己感兴趣的数据。这次用到的数据编号为SRP045500,是人血液RNA-seq的数据。
当然如果你用的是自己的实验数据的话,可以跳过这一步。但是需要下机数据的质量控制QC处理。可以参考超高速fastq前处理工具教程这篇文章。
- 在网页上下载Accession List 和 Metadata
打开NCBI,选择SRA然后输入编号SEP045500。(Fig.1)