单细胞测序Single Cell RNA-seq单细胞测序

单细胞测序之二原始数据处理

2018-08-05  本文已影响520人  刘小泽

本次的参考文献是2015年Molecular Cell的文献
http://dx.doi.org/10.1016/j.molcel.2015.04.005

原始数据下载

mkdir raw && cd raw
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR522/ERR522959/ERR522959_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR522/ERR522959/ERR522959_2.fastq.gz

数据质控

mkdir fastqc && cd fastqc
fastqc -t 10 -o /fastqc ../raw/ERR522959_1.fastq ../raw/ERR522959_2.fastq

结果显示,两个read测试文件用的是Nextera Transposase Sequence的接头,并且都存在污染

原始数据质控

数据过滤

使用trim-galore软件,它可以用来切掉存在接头污染或者低质量序列的read末尾,另外过滤后要再用fastqc质控一次

注意:安装时的名称是trim-galore,使用的时候要用trim_galore

mkdir trimmed_fastqc && cd trimmed_fastqc
trim_galore --nextera --fastqc -o ./ ../../raw/ERR522959_1.fastq ../../raw/ERR522959_2.fastq
## --nextera指定污染序列接头类型
## --fastqc在trim完后,设置再次进行fastqc
过滤后的质控

这样的reads才是接下来比对需要的

比对须知

比对才能获得测序片段在基因组或转录组上的位点,才能继续分析问题;
要比对reads,就需要有参考基因组和注释文件gtf/gff

目前做单细胞测序最多的也应该属人和小鼠了,因此参考文件很齐全

STAR原理

第一步:构建索引

mkdir index && cd index 
## vi create_index.sh
fasta=/DIR to hg19/hg19.fa
STAR --runThreadN 20 \ ##这里我用了72线程,总共使用了23分钟
--runMode genomeGenerate \
--genomeDir ./ \
--genomeFastaFiles $fasta
使用72线程需要23分钟

第二部:比对

mkdir star_align && cd star_align
## vi star_align.sh
STAR --runThreadN 20 \
--readFilesIn ../trimmed_fastqc/ERR522959_1_trimmed.fq ../trimmed_fastqc/ERR522959_1_trimmed.fq \
--genomeDir ./ \
--outFileNamePrefix ./STAR ## output files name prefix (including full or relative path)

上面用的STAR是将reads直接比对到参考序列,因此比对速度比较慢;而Kallisto是利用k-mer比对参考序列,在转录组测序中也可以用它来分析,它不需要拼接转录本,速度很快,也被称作"pseudo-aligner"


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读