重测序比对流程

2022-03-18 本文已影响0人爱吃海椒的妹妹

此文章是用以查看操作步骤简化版，详细解释可见文章
全基因组重测序流程【超细致！！】 - 简书 (jianshu.com)

使用这些命令时，只要输入该命令就可以看到该命令如何使用，比如输入bwa index，就可以看到具体如何使用

一、比对

1、建立索引
对参考序列构建索引
bwa软件所在路径/bwa index 参考序列FASTA文件

image

2、比对及排序

$ bwa mem -t 4 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -O bam -o - | samtools sort -@ 4 -m 4G -O bam -o demo3_name.sorted.bam

查看bam格式文件

samtools view demo.bam | less -S

以下是补充说明：
输入bwa men可以看到这个算法怎么使用，具体如下图）

image

代码解释:
-t，线程数，我们在这里使用4个线程:线程数是由电脑的内核决定的，一般这种简单的用4个线程就够了

image.png

此处的 -t 嗄代表的是处理线程，越多速度越快。，该步骤处理时间较长。
具体可以设置多少线程视服务器而定。可通过下列代码查询，设置相关值。
grep 'physical id' /proc/cpuinfo | sort -u 查看CPU个数
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看核心数量
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看线程
cat /proc/meminfo 查看服务器内存（引自：対MS特技兵）

（\t）代表tab分隔符（\n则表示换行符）

-R read group header line 读取组标题行用于后续区分这些样本

foo（第几泳道）可以从PE的fastq文件中找到

SM自己命名

二、比对文件的处理

1、标记重复

picard MarkDuplicates I=sample_name.sorted.bam O=sample_name.sorted.markdup.bam M=sample_name.markdup_metrics.txt

2、创建索引
a.为bam文件创建索引
让我们可以随机访问这个文件中的任意位置，后面的“局部重比对”步骤也要求这个BAM文件一定要有索引
生成的索引后缀是.bai

samtools index sample_name.sorted.markdup.bam

b.为参考序列创建索引
准备参考基因组.fai和.dict文件,局部重比需要这两个文件

gatk CreateSequenceDictionary -R genome.fa -O genome.dict && samtools faidx genome.fa

作者：対MS特技兵
链接：https://www.jianshu.com/p/473a6208d7e5
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
作者：家和建材广场
链接：https://www.jianshu.com/p/2cca13963293
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

重测序比对流程

一、比对

二、比对文件的处理

猜你喜欢

热点阅读