RNA-seq上游流程

2021-10-07 本文已影响0人 FANHONGZENG

1.数据下载

在ncbi找到要下载的sra样本，点击Accession List下载所需要样本名，会生成SRR_Acc_List.txt的文件，将这个文件上传到linux端，再用prefetch下载

ncbi

prefetch

cat SRR_Acc_List.txt | while read id ; do prefetch $id ; done

fast-dump

下载完成的数据是已.sra结尾的，使用fast-dump转换为fastq格式的文件

cat SRR_Acc_List.txt | while read id ; do fastq-dump --split-3 --gzip $id.sra ;done

运行完成之后的文件以fastq.gz结尾

2.数据质控和过滤

fastp

fastp可以一步实现数据质控与过滤,相比fastqc+trim的流程更为方便迅速。这里演示单端数据的处理方法

cat SRR_Acc_List.txt | while read id ; do fastp -i $id.fastq.gz -o $id.fq.gz ; done

处理完成后会生成.fq.gz结尾的文件和fastp.html fastp.json的报告文件

3.数据比对

hisat2

hisat2比对需要使用参考基因组做索引文件，以拟南芥为例展示下载参考基因组的方法

点击refseq

下载标记的两个文件

参考基因组

wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz

注释文件（后面步骤会用到）

wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.gtf.gz

建立参考基因组的索引文件

hisat2-build GCF_000001735.4_TAIR10.1_genomic.fna GCF_000001735.4_TAIR10.1_genomic

hisat2比对

hisat2比对后会生成比较大的sam文件，需要用samtools转换为比较小的bam文件(演示的单端数据，双端数据需要更改-U参数）。

cat SRR_Acc_List.txt | while read id ; do hisat2 -q -x GCF_000001735.4_TAIR10.1_genomic -U $id.fq.gz | samtools sort -o $id.bam ; done

执行后会得到bam文件

定量

featureCounts

featureCounts需要用到参考基因组的注释文件，和上一步得到的bam文件

featureCounts -T 10 -t exon -g gene_id -a GCF_000001735.4_TAIR10.1_genomic.gtf.gz -o all.id.txt *.bam

featureCounts会生成txt的文件，用这个文件就可以去做下游的分析啦!