mummer
mummer tutorial
http://mummer.sourceforge.net/examples/#examples
1.mapview
通过nucmer或者promer得到.coords 文件。在show-coords命令时一定要有参数-l -r。
mapview -n 1 -p mapview promer.coords
-n 默认会将output分成10个files。这里因为序列小,将n设为1
输出结果:mapview_0.fig
如果有cds和utr(gff格式)文件,可以让图多最上方的绿色方块注释信息。
mapview -n 1 -f pdf -p mapview promer.coords D_melanogaster_2Rslice.utr D_melanogaster_2Rslice.cds
默认输出fig格式
-f pdf 指定输出pdf格式
??指定pdf后,无任何文件输出
2.2 mummer
to find maximal exact matches of some minimum length between two input sequences.
generate alignment dot plots,
1. mummer
mummer -mum -b -c H_pylori26695_Eslice.fasta H_pyloriJ99_Eslice.fasta > mummer.mums
可以多条reference对多条query。不过plot还是1对1比较清楚。
-m:all maximal unique matches
-b:both forward and reverse
-c:relative to forward strand
输出mummer.mums
2. mummerplot
mummerplot -x "[0,275287]" -y "[0,265111]" -postscript -p mummer mummer.mums
-p 输出文件前缀
-x -y:根据input序列长度来设定
输出文件:
plot files contains the data points:mummer.fplot mummer.rplot
mummer.gp is a gnuplot script for plotting the data points in the plot files
mummer.ps is the postscript plot generated by the gnuplot script.
Forward MUMs 红色
reverse MUMs 绿色or蓝色
- A line of dots斜率为1表示 an undisturbed segment of conservation between the two sequences,
若为-1,represents an inverted segment of conservation between the two sequences. - 左上的绿色部分表示既是an inversion 也是translocation, 因为斜率为负,而且和其他部分不在一个位置,看起来是在 line approximated by f(x) = x.
右上的绿色部分仅仅是inversion。 - 总的来说,线越接近 f(x) = x (or -x) ,两个序列之间的 macroscopic differences越少。
2.4 promer
和nucmer的唯一区别:all matching and alignment routines are performed on the six frame amino acid translation of the DNA input sequence.
会更加敏感,因为蛋白序列diverge much slower。因为结果比nucmer多一些conserved regions,因为DNA没有蛋白质那么保守。
参考序列fasta:只有一条
queryfasta contigs:有两条
1. promer
aligns a few query sequences to single reference sequence
最好是多条序列map到单条reference sequence
promer -p promer D_melanogaster_2Rslice.fasta D_pseudoobscura_contigs.fasta
-p 为输出文件前缀
输出两个文件。
promer.delta 是encoded file that represents the alignment between the two inputs.
2. show-coords
根据delta文件提取需要的信息。-r -c -l 有利于后续mapview。
displays the alignment coordinates
show-coords -r -c -l -L 100 -I 50 promer.delta > promer.coords
each line is sorted by its starting reference coordinate (-r)
alignment coverage (-c)
sequence length (-l)
minimum length (-L)
minimum percent identity (-I) cutoffs
3. show-aligns
prints a pairwise alignment of one of the contigs
“3214968”是query fasta中一个contig的名字
image.png
show-aligns promer.delta "D_melanogaster_2Rslice" "3214968" > promer.aligns
show-aligns 只能每两个序列来跑。这里就必须跑两次,两个contig分别都要跑一次。
mummerplot
导出格式为ps(postscript格式),需要转成pdf
安装ghostscript,其中有ps2pdf。(apt-get install ghostscript)
但服务器装了ps2pdf
https://www.linux.com/learn/creating-pdf-files-ps2pdf
show-snps -Clr -x 1 -T out-filter.delta >mum.delta.filterX.snps
找到python脚本将snp输出文件转成vcf格式
vcftools
http://lilibei.net/2016/11/21/vcftools使用说明/
ANNOVAR
link