重测序及SNP分析群体遗传学生物信息学

重测序比对流程

2022-03-18  本文已影响0人  爱吃海椒的妹妹

此文章是用以查看操作步骤简化版,详细解释可见文章
全基因组重测序流程【超细致!!】 - 简书 (jianshu.com)

使用这些命令时,只要输入该命令就可以看到该命令如何使用,比如输入bwa index,就可以看到具体如何使用

一、比对

1、建立索引
对参考序列构建索引
bwa软件所在路径/bwa index 参考序列FASTA文件

image

2、比对及排序

$ bwa mem -t 4 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -O bam -o - | samtools sort -@ 4 -m 4G -O bam -o demo3_name.sorted.bam

查看bam格式文件

samtools view demo.bam | less -S

以下是补充说明:
输入bwa men可以看到这个算法怎么使用,具体如下图)

image

代码解释:
-t,线程数,我们在这里使用4个线程:线程数是由电脑的内核决定的,一般这种简单的用4个线程就够了


image.png

此处的 -t 嗄 代表的是处理线程,越多速度越快。,该步骤处理时间较长。
具体可以设置多少线程视服务器而定。可通过下列代码查询,设置相关值。
grep 'physical id' /proc/cpuinfo | sort -u 查看CPU个数
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看核心数量
grep 'core id' /proc/cpuinfo | sort -u | wc -l 查看线程
cat /proc/meminfo 查看服务器内存(引自:対MS特技兵)

(\t)代表tab分隔符(\n则表示换行符)

-R read group header line 读取组标题行 用于后续区分这些样本

foo(第几泳道)可以从PE的fastq文件中找到

SM自己命名

二、比对文件的处理

1、标记重复

picard MarkDuplicates I=sample_name.sorted.bam O=sample_name.sorted.markdup.bam M=sample_name.markdup_metrics.txt

2、创建索引
a.为bam文件创建索引
让我们可以随机访问这个文件中的任意位置,后面的“局部重比对”步骤也要求这个BAM文件一定要有索引
生成的索引后缀是.bai

samtools index sample_name.sorted.markdup.bam

b.为参考序列创建索引
准备参考基因组.fai和.dict文件,局部重比需要这两个文件

gatk CreateSequenceDictionary -R genome.fa -O genome.dict && samtools faidx genome.fa 

作者:対MS特技兵
链接:https://www.jianshu.com/p/473a6208d7e5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
作者:家和建材广场
链接:https://www.jianshu.com/p/2cca13963293
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上一篇 下一篇

猜你喜欢

热点阅读