Salmon 使用说明
2019-03-17 本文已影响0人
dandanwu90
salmon quant 有两种类型
一种使用raw reads 另一种用已经比对好的序列(BAM/SAM格式),这种算法依赖于salmon quant的参数
例如:提供一个-a(alignment)参数,就用比对算法,否则就会用raw reads 算法进行计数
比对模型用参数 salmon quant --help-reads
dual-phase,基于mapping评估rna-seq中转录本的丰富程度。
salmon quant 参数:
mapping input 参数
-l #arg 字符串类型描述文库类型
-i #arg salmon index(索引)
-r #arg 文件中包括不匹配的序列(如:单端测序序列)
-1 #arg 文件中包含#1匹配
-2 #arg 文件中包含#2匹配
基本参数
-v #输入字符串版本
-h #调用帮助文档
-o #arg 输出质量文档
--seqBias #序列特异性偏好矫正
--gcBias #(单端序列)进行GC偏好性矫正
-p #arg (=4)同时使用线程数
--incompatPrior #arg (=0) 比对与指定文库类型不相符,由真正的片段产生。0表示比对中与库类型不一致为“不可能”,1表示不一致>=比对
--geneMap #arg 文件将转录组比对到基因上。如果有这个文件,salmon输出quant.sf 和quant.genes.sf两个文件,后一个文件中包括 基因水平富集预测。转录组到基因比对需要提供GTF文档或一个以制表符分割的格式每行包含一个转录本和基因的名字,名字也要用tab键分割。文件的扩展名可以是“gtf”“gff”或“gff3”,都以GTF格式处理;以其他任何扩展名都认为是simple format。"transcript_id" 包括transcript identifier,"gene_id" 为对应的gene identifier.
--meta #用于宏基因组数据(metagenomic),可以去除对宏基因组数据不重要的富集评估。
salmon建立索引
salmon index --help
命令行参数:
-v #[--version] 显示版本信息
-h #[--help] 帮助信息文档
-t #[--transcripts] arg 转录本fasta 文件
-k #[--kmerLen] arg (=31) k-mers长度设置
-i #[--index] arg salmon的索引
--gencode #输入转录本fasta为GENCODE格式,在第一个‘|’字符处将转录本名分开。这个命名将用来准备输出文件,在基因-转录本GTF文件中查找这些转录本。
--keepDuplicates #默认设置中去除冗余的序列一致性转录本,该参数保留输入文件中的冗余转录本病单独计数。
-p #(--thread) arg (=2) 线程数(仅用于计算偏好性特征, computing bias features)
--perfectHash #[quasi index only] 建立索引时用完美哈希(perfect hash)而非密集哈希(dense hash),尤其是在计数时所占的内存小,但所需时间较长。
--type #arg (=quasi) 要构建索引的类型,此版本的salmon中参数唯一,为“quasi”