【陪你学·生信】十、编辑对多序列比对结果
一般多序列比对的结果都需要进行编辑再进行下一步分析。
这个推送中用于举例操作的比对结果可以在网站下载:
http://www.tcoffee.org/dummy_aln.html
Fig.1 ClustalW / ALN格式的数据
一、MSA的数据格式
1. MSA结果的主要格式
一般多序列比对工具输出的数据格式为MSF(Multiple Sequence Format)或者不同工具有自己偏好的格式,但分析结果的软件有可能只读取FASTA格式的比对结果。这时需要重新组织数据格式,或者在MSA时选择合适的格式输出。
Fig. 2 EMBL-Clustal Omege可输出的数据格式
常见的数据文本类型的格式有Clustal/ALN(Clustal默认输出格式),FASTA(易于机器操作的格式,不包含额外的注释信息,几乎所有软件支持的格式), MSF(MSA的常见格式,易于人理解,包含额外的注释信息,很多软件支持但是可能导入时有部分信息丢失), Phylip(适合进一步系统发育分析)。图形类型的格式有post-script,PDF,HTML主要用于发表和打印。
这个网页有更详细的关于文件格式的介绍。
emboss.sourceforge.net/docs/themes/SequenceFormats.html
2. 格式转换
有的网站可以实现一些格式间的转换。
https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
不过需要注意格式转换可能丢失或者搞错的信息,比如序列的名字,序列的大小写,以及一些特殊氨基酸残基(X:表示不确定的氨基酸残基)、核苷酸残基(N:表示很多种核苷酸)可能在转换中丢失或弄错。需要留意一下。
二、用Geneious prime等软件编辑MSA
1. 操作
首先下载数据,将Clustal W格式转换为FASTA格式,导入Geneious,结果如下。
之后就可以进行编辑,操作上很简便。其他的编辑工具的操作也是类似的,可以对多序列中的某一条序列增减gap或者对MSA整体结果两端进行编辑等。
2. 其他的编辑工具(部分列举)
(1)Jalview
http://www.jalview.org/
(2)CINEMA
http://130.88.97.239/CINEMA/
(3)Seaview
http://pbil.univ-lyon1.fr/software/seaview3
三、结果分析和美化
1. Logos分析
http://weblogo.berkeley.edu/
图中坐标轴X上每个位置都是MSA的一栏,Y轴bits值越大的区域越保守。字母是该位置的氨基酸残基,字母越大表示该位置出现它的频率越高,并且它的logo显示位置也是最高的。
2. Boxshade美化(黑白灰)
https://embnet.vital-it.ch/software/BOX_form.html
output format选择RTF_new,最后美化结果是word document的格式;Fraction of sequences=0.5的意思是一半的残基要上色;黑色表示一致,灰色表示相似。
3. 其他美化工具
(1)MView
https://www.ebi.ac.uk/Tools/msa/mview/
(2)ESPrint
http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
往期相关内容:
【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)
【陪你学·生信】六、当你有一段待分析的氨基酸序列(基础操作介绍)