比较基因组群体分析实用小公举

mummer

2017-12-05  本文已影响156人  琼脂糖

mummer tutorial
http://mummer.sourceforge.net/examples/#examples

1.mapview

通过nucmer或者promer得到.coords 文件。在show-coords命令时一定要有参数-l -r。
mapview -n 1 -p mapview promer.coords
-n 默认会将output分成10个files。这里因为序列小,将n设为1
输出结果:mapview_0.fig

如果有cds和utr(gff格式)文件,可以让图多最上方的绿色方块注释信息。
mapview -n 1 -f pdf -p mapview promer.coords D_melanogaster_2Rslice.utr D_melanogaster_2Rslice.cds
默认输出fig格式
-f pdf 指定输出pdf格式
??指定pdf后,无任何文件输出

2.2 mummer

to find maximal exact matches of some minimum length between two input sequences.
generate alignment dot plots,

1. mummer

mummer -mum -b -c H_pylori26695_Eslice.fasta H_pyloriJ99_Eslice.fasta > mummer.mums
可以多条reference对多条query。不过plot还是1对1比较清楚。
-m:all maximal unique matches
-b:both forward and reverse
-c:relative to forward strand

输出mummer.mums

2. mummerplot

mummerplot -x "[0,275287]" -y "[0,265111]" -postscript -p mummer mummer.mums
-p 输出文件前缀
-x -y:根据input序列长度来设定

输出文件:
plot files contains the data points:mummer.fplot mummer.rplot
mummer.gp is a gnuplot script for plotting the data points in the plot files
mummer.ps is the postscript plot generated by the gnuplot script.

image.png

Forward MUMs 红色
reverse MUMs 绿色or蓝色

  1. A line of dots斜率为1表示 an undisturbed segment of conservation between the two sequences,
    若为-1,represents an inverted segment of conservation between the two sequences.
  2. 左上的绿色部分表示既是an inversion 也是translocation, 因为斜率为负,而且和其他部分不在一个位置,看起来是在 line approximated by f(x) = x.
    右上的绿色部分仅仅是inversion。
  3. 总的来说,线越接近 f(x) = x (or -x) ,两个序列之间的 macroscopic differences越少。

2.4 promer

和nucmer的唯一区别:all matching and alignment routines are performed on the six frame amino acid translation of the DNA input sequence.
会更加敏感,因为蛋白序列diverge much slower。因为结果比nucmer多一些conserved regions,因为DNA没有蛋白质那么保守。

参考序列fasta:只有一条
queryfasta contigs:有两条

1. promer

aligns a few query sequences to single reference sequence
最好是多条序列map到单条reference sequence
promer -p promer D_melanogaster_2Rslice.fasta D_pseudoobscura_contigs.fasta
-p 为输出文件前缀
输出两个文件。
promer.delta 是encoded file that represents the alignment between the two inputs.

2. show-coords

根据delta文件提取需要的信息。-r -c -l 有利于后续mapview。
displays the alignment coordinates
show-coords -r -c -l -L 100 -I 50 promer.delta > promer.coords
each line is sorted by its starting reference coordinate (-r)
alignment coverage (-c)
sequence length (-l)
minimum length (-L)
minimum percent identity (-I) cutoffs

3. show-aligns

prints a pairwise alignment of one of the contigs
“3214968”是query fasta中一个contig的名字


image.png

show-aligns promer.delta "D_melanogaster_2Rslice" "3214968" > promer.aligns

show-aligns 只能每两个序列来跑。这里就必须跑两次,两个contig分别都要跑一次。

mummerplot

导出格式为ps(postscript格式),需要转成pdf
安装ghostscript,其中有ps2pdf。(apt-get install ghostscript)
但服务器装了ps2pdf
https://www.linux.com/learn/creating-pdf-files-ps2pdf

show-snps -Clr -x 1 -T out-filter.delta >mum.delta.filterX.snps

找到python脚本将snp输出文件转成vcf格式

vcftools
http://lilibei.net/2016/11/21/vcftools使用说明/
ANNOVAR
link

上一篇下一篇

猜你喜欢

热点阅读