RNA-seq 数据上游分析
2020-06-24 本文已影响0人
生信摆渡
一、质控 -- FastQC
FastQC旨在提供一种简单的方法,对来自高通量测序的原始序列数据进行一些质量控制检查。它提供了一组模块化的分析,您可以使用这些分析快速了解您的数据是否存在任何问题,在进行进一步分析之前,您应该了解这些问题。
FastQC的主要功能是:
-
从BAM、SAM或FastQ文件导入数据(任何变体)
-
提供一个快速的概述,告诉您在哪些方面可能存在问题
-
快速评估数据的摘要图表
-
将结果导出到基于HTML的永久报表
-
允许在不运行交互式应用程序的情况下自动生成报表的脱机操作
使用方法
fastqc -q -t Nthread -o outdir read1 read2
参数说明
-
-o --outdir
处理结果的保存路径。你应该确认此这个路径是存在的,,程序不会自动为你创建。如果不设置,结果将保存在与输入文件的同一目录下。 -
-q --quiet
禁止程序运行过程中的输出信息,仅保留报错信息 -
-t --threads
指定可以同时处理的文件数。每个线程将分配250MB内存,因此运行的线程不应超过
可用内存将处理,且32位机器上不超过6个线程
HTML报告解读
二、基因组比对 -- STAR
STAR的使用方法下面这篇文章记录地很清楚:
知乎 -- 既见君子:转录组分析 | 使用STAR进行比对
三、转录组定量 -- kallisto
Kallisto主要有6个命令,分别是index,quant,pseudo,h5dump,version,cite。其中最常使用的是前2个,index建立转录组索引,quant进行转录本水平的表达定量。
四、数据质控
用法和介绍 github 写的很清楚:RNA-seQC