2022

生物数据格式 - pileup

2021-02-26  本文已影响0人  半夜一更
格式

pileup格式描述了染色体上每个位置的碱基信息, 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。

pileup文件格式如下: pileup格式.png

pileup格式文件包括6列
第一列:参考序列名;
第二列:碱基位置;
第三列:参考碱基;
第四列:比对上的reads;
第五列:比对情况;
第六列:碱基质量,与fastq文件一样用ASCII码表示。
其中第五列比对情况的表示方法较为复杂,用多种表达了每一个碱基的比对情况:

符号 含义 符号 含义
. 匹配正链 , 匹配负链
ATCGN 正链上的不匹配 actin 负链上的不匹配
^ 该条read的第一个碱基 $ 该条read的最后一个碱基
正则式:+[0-9][ATCGN] 在该位点后插入的碱基 正则式:+[0-9][atcgn] 在该位点后缺失的碱基
* 模糊碱基
获取

Pileup 文件一般是由samtools从sorted bam 文件生成:

samtools mpileup -f XX.fa -Q 15 -q 20 input.sorted.bam -o output.pileup

上一篇下一篇

猜你喜欢

热点阅读