NGS分析手把手教学：零基础RNA-seq转录组分析实践，两套方

2022-09-13 本文已影响0人 Jason数据分析生信教室

⚠️不想充值付费的小伙伴可以点赞，会随机挑选幸运观众赠送全文。

NGS分析手把手教学系列继WGS全基因组分析以后终于更新啦。这次是RNA-seq转录组分析。本文主要是指导操作流程，不会浪费篇幅在解释RNA-seq原理上。

本章会使用人类基因组，比较组间的差异基因。其他物种的数据同样适用。

所有代码都亲测可用(2022年9月），由于一些老旧版本的工具以及网络协议已经没法使用，所以也会有最新版本工具安装教学内容。除了需要修改路径和文件名，读者基本只需要复制黏贴就可以复现所有操作。

这次主要介绍的管道工具是运用在很多生信服务器上的国际标准STAR，以及另外一款很常用并且配置不高的笔记本也能快速运行的kallisto。各位可以根据自己的实际情况进行操作。

主要工具
fasterq-dump, lftp, R, STAR, kallisto, awk, RSEM

获取RNA-seq数据-转换
1.1 创建工作文件夹
1.2 获取SRA数据清单
1.3 下载数据
1.3.1 安装sratools使用fasterq-dump
1.3.2 数据下载

准备参考序列
2.1 下载序列
2.2 下载注释数据
2.2.1 STAR方案
2.2.2 kallisto方案

比对和定量
3.1 STAR-RSEM-DESeq2 方案
3.1.1 STAR的安装
3.1.2 Index
3.1.3 比对
3.1.4 RSEM定量
3.1.5 DESeq2统计分析(LRT&Wald Test)和可视化
3.2 kallisto-sleuth方案
3.2.1 安装kallisto
3.2.2 Index
3.2.3 比对与定量
3.2.4 sleuth统计分析(LRT&Wald Test)和可视化

1. 获取RNA-seq数据-转换

1.1 创建工作文件夹

mkdir ~/Documents/expression
mkdir ~/Documents/expression/seq
cd ~/Documents/expression/seq

1.2 获取SRA数据清单

发表论文的时数据候都会上传SRA(Sequence Read Archive)。所以可以通过SRA编号去获取自己感兴趣的数据。这次用到的数据编号为SRP045500，是人血液RNA-seq的数据。

当然如果你用的是自己的实验数据的话，可以跳过这一步。但是需要下机数据的质量控制QC处理。可以参考超高速fastq前处理工具教程这篇文章。

在网页上下载Accession List 和 Metadata

打开NCBI，选择SRA然后输入编号SEP045500。(Fig.1)

NGS分析手把手教学：零基础RNA-seq转录组分析实践，两套方

目录

1. 获取RNA-seq数据-转换

1.1 创建工作文件夹

1.2 获取SRA数据清单

猜你喜欢

热点阅读