kallisto比对参考转录组
2020-06-23 本文已影响0人
生信编程日常
kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直接比对到转录组,然后进行转录本鉴定及定量。

kallisto的优势在于比对速度很快,这是因为用了一种伪比对方法,即将k-mers比对到参考转录组上。在用20套模拟数据与以往其他软件速度比较中,kallisto速度明显更快:

1. 安装
可以用conda直接快捷的安装:
conda install kallisto
或者直接到github中下载(https://github.com/pachterlab/kallisto):
git clone https://github.com/pachterlab/kallisto.git
根据下载得到的INSTALL.md配置:
cd kallisto
mkdir build
cd build
cmake .. # 这里没有sudo权限的装不上 建议改为:
cmake .. -DCMAKE_INSTALL_PREFIX:PATH=$HOME/kallisto/bin # 或者自己的其他目录
make # 或者make install
最后将环境写到~/.bashrc或~/.bash_profile中source即可。
2. 创建索引
kallisto index ${dir}/trancripts.fasta -i ${dir}/trans_index
提供fasta转录组序列生成索引文件。
3. 定量
# 双端数据
kallisto quant -i ${dir}/trans_index -o output -b 100 reads_1.fastq.gz reads_2.fastq.gz
#单端数据
kallisto quant -i ${dir}/trans_index -o output -b 100 --single -l 180 -s 20 reads_1.fastq.gz
丰度文件被保存在abundance.tsv中:

接下来可以用另一软件Sleuth进行后续分析。
4. 可视化
--genomebam选项可以实现,此外还需要两个额外文件,一个是gtf文件,里面有每个转录组在染色体中的位置;另外一个是每个染色体的长度文件。
kallisto quant -i ${dir}/trans_index -b 30 -o kallisto_out \
--genomebam --gtf transcripts.gtf.gz \
--chromosomes chrom.txt reads_1.fastq.gz reads_2.fastq.gz
最后生成pseudoalignments.bam 和 pseudoalignments.bam.bai两个文件,可以用samtools和IGV进行可视化。
欢迎关注!
