重测序比对流程
此文章是用以查看操作步骤简化版,详细解释可见文章
全基因组重测序流程【超细致!!】 - 简书 (jianshu.com)
使用这些命令时,只要输入该命令就可以看到该命令如何使用,比如输入bwa index,就可以看到具体如何使用
一、比对
1、建立索引
对参考序列构建索引
bwa软件所在路径/bwa index 参考序列FASTA文件
![](https://img.haomeiwen.com/i27405822/c8a78b2441414562.png)
2、比对及排序
$ bwa mem -t 4 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -O bam -o - | samtools sort -@ 4 -m 4G -O bam -o demo3_name.sorted.bam
查看bam格式文件
samtools view demo.bam | less -S
以下是补充说明:
输入bwa men可以看到这个算法怎么使用,具体如下图)
![](https://img.haomeiwen.com/i27405822/3d8225d7dc989d38.png)
代码解释:
-t,线程数,我们在这里使用4个线程:线程数是由电脑的内核决定的,一般这种简单的用4个线程就够了
![](https://img.haomeiwen.com/i27405822/e4efddecb2f04833.png)
此处的 -t 嗄 代表的是处理线程,越多速度越快。,该步骤处理时间较长。
具体可以设置多少线程视服务器而定。可通过下列代码查询,设置相关值。
grep 'physical id' /proc/cpuinfo | sort -u 查看CPU个数
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看核心数量
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看线程
cat /proc/meminfo 查看服务器内存(引自:対MS特技兵)
(\t)代表tab分隔符(\n则表示换行符)
-R read group header line 读取组标题行 用于后续区分这些样本
foo(第几泳道)可以从PE的fastq文件中找到
SM自己命名
二、比对文件的处理
1、标记重复
picard MarkDuplicates I=sample_name.sorted.bam O=sample_name.sorted.markdup.bam M=sample_name.markdup_metrics.txt
2、创建索引
a.为bam文件创建索引
让我们可以随机访问这个文件中的任意位置,后面的“局部重比对”步骤也要求这个BAM文件一定要有索引
生成的索引后缀是.bai
samtools index sample_name.sorted.markdup.bam
b.为参考序列创建索引
准备参考基因组.fai和.dict文件,局部重比需要这两个文件
gatk CreateSequenceDictionary -R genome.fa -O genome.dict && samtools faidx genome.fa
作者:対MS特技兵
链接:https://www.jianshu.com/p/473a6208d7e5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
作者:家和建材广场
链接:https://www.jianshu.com/p/2cca13963293
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。