走进转录组

【块】生信上游-4 HISAT2

2022-10-24  本文已影响0人  JamesMori

1. 基本流程

1.1. 建立参考基因组
hisat2-build
可为UCSC、NCBI、Ensembl等来源的fasta文件,多个文件以逗号分隔
1.2. 比对样本reads
hisat2
输出为SAM文件
1.3. 下游SAMtools/BCFtools分析
samtools view将SAM转化为BAM
samtools sort将BAM转化为sorted BAM
sorted BAM方便长期储存
samtools mpileup,bcf view产生VCF文件

2. 安装搭建

下载链接:
HISAT2:Download | HISAT2 (daehwankimlab.github.io)
NCBI-NGS:https://github.com/ncbi/ngs/wiki/Downloads

  1. 下载后解压,转到当前目录后make
  2. HISTAT2可直接支持sra数据,需要安装NCBI-NGS,make并设置参数如下:
make USE_SRA=1 NCBI_NGS_DIR=/path/to/NCBI-NGS-directory NCBI_VDB_DIR=/path/to/NCBI-NGS-directory
  1. 将一下所有路径添加进PATH:hisat2, hisat2-align-s, hisat2-align-l, hisat2-build, hisat2-build-s, hisat2-build-l, hisat2-inspect, hisat2-inspect-s and hisat2-inspect-l

3. 函数的书写

一些选项的参数不是常数,而是输入一个函数。所以有特定的函数表达方式如下:
参数:F、常数:C、系数:A
函数类型:L线性、C常数、S平方根、G log
示例:L,-0.4,-0.6等同于f(x) = -0.4 + -0.6 * x、G,1,5.4等同于f(x) = 1.0 + 5.4 * ln(x)

4. indexer

短于4 billion nucleotides的参考序列,建立32-bit的small index,扩展名.ht2
较长时,建立64-bit的large index,扩展名.ht2l
wrapper scripts会自动区分处理两种index
running time 和 memory usage之间的平衡-p/--packed, --bmax/--bmaxdivn, 和 --dcv
hisat2-build会自动选择时间和内存的平衡点,-a/--noauto可取消
4.1. 主要参数
-f:<reference_in>:逗号分隔的fasta文件,-c输入序列
<ht2_base>:indexer输出文件
4.2. 其他参数

5. 比对

HISAT2默认会soft-clip,即将一些5端与3端的碱基惩罚降低。
--sp设置惩罚值,--no-softclip可取消soft-clip
5.1. 主要参数(输入与输出)
-x:index file 不需加后缀
-1:read1 需要后缀
-2:read2
-U:unpaired reads
--sra-acc:sra accession number
-S:SAM output
5.2. 输入参数
-q:输入是fastq
-qseq:输入是qseq文件
-f:fasta文件
-r:一个序列一个文件
-c:命令行直接输入,逗号分隔序列
-s/--skip:跳过一定reads
-u:仅比对一定reads
-5:5端切碱基
-3:3端切碱基
--phred33:碱基质量格式
--phred64:碱基质量格式
--solexa-quals:Solexa转为phred
--int-quals:数字格式质量分数
5.3. 比对参数
--n-ceil:输入函数,根据read长度设置N上限,默认L,0,0.15
--ignore-quals:计算mismatch惩罚时,默认忽视该碱基的质量分数
--nofw/--norc:
5.4. 评分参数
--mp MX,MN:惩罚分数,默认6,2
--sp MX,MN:soft-clip惩罚分数,默认2,1
--no-softclip:
--np:N惩罚,默认1
--rdg:read gap和extend惩罚,默认Default: 5, 3
--rfg:reference gap和extend惩罚,默认5, 3
--score-min: 输入函数,根据read长度设置valid比对的下限,默认L,0,-0.2

6. index inspector

提取index的信息,以及参考组信息
-a/--across:每行多少个碱基
-n/--names:输出参考序列名
-s/--summary:输出参考序列信息
--snp:Print SNPs, and quit.
--ss:Print splice sites, and quit.
--ss-all:Print splice sites including those not in the global index, and quit.
--exon:Print exons, and quit.
-v/--verbose:Print verbose output (for debugging).
--version:Print version information and quit.
-h/--help:Print usage information and quit.

上一篇 下一篇

猜你喜欢

热点阅读