基因组学生信分析基因组学

复现文章中的基因进化树[MUSCLE+FastTree]

2020-07-14  本文已影响0人  巩翔宇Ibrahimovic

写在前面

复现文章中的figure是检验自己是否完全掌握工具的使用最重要的方式,下面我以2019年南京大学杨四海老师发表在PNAS上的文章Large-scale identification and functional analysis of NLR genes in blast resistance in the Tetep rice genome sequence

中的F.S3。

要复现的图太长了,部分展示一下。

F.S3.png

作者真的是体贴,还把鉴定到的NLRs放在了figshare上【https://figshare.com/articles/Datasets_for_Tetep_genome_analysis/7775810/1】,figshare也是一个好网站,有时间写一下它的用法。

正文

1.数据预处理

#下载figshare上的压缩包并解压缩
tar -zxvf Bdistachyon.NLRs.tar.gz
tar -zxvf Nipponbare.NLRs.tar.gz
tar -zxvf Tetep.NLRs.tar.gz
​
#因为文章只用的NBS的蛋白序列做的图,所以我们就提取其中的NBS蛋白序列,并进行合并,方便后面进行多序列的比对
less Nip.NBS_all.NBS_domain_pep.fas >> three.fa
less Tetep.NBS_all.NBS_domain_pep.fas >> three.fa
less Bdistachyon_314_v3.1.NBS_all.NBS_domain_pep.fas >> three.fa

2.多序列比对

文章说蛋白序列是使用的muscle比对,我就直接用了linux 版MEGA中的muscle比对。如何使用Linux版的MEGA请看我这篇简书【https://www.jianshu.com/p/63c656e60900

time nohup megacc -a muscle_align_protein.mao -d three.fa -f Fasta -o threeAligned.fasta
# -a是使用mao文件,在windows中设置时,如果不是很懂参数的话,直接用默认参数就好。
# -d是输入的多序列文件
# -f指定输出的类型,这里我选择的是FASTA
# -o是输出的多序列比对文件

3.Fasttree建树

#我选择的是最新版的LG模型建树
time nohup FastTree threeAligned.fasta > tree

结果展示

跟原文几乎一模一样,但文章没有告诉用什么样的模型,我也就选择了08年的LG模型。

exhibition.png

Fasttree简单介绍

FastTree能够从核苷酸或蛋白质序列的比对中推断出极大似然系统进化树。FastTree可以在合理的时间和内存内处理多达一百万个序列的比对。对于大型比对,FastTree比PhyML 3.0或RAxML 7快100- 1000倍。

FastTree采用的模型

Fasttree官方文件里后面的几个问题也是蛮有意思的,感兴趣的也可以看看。

参考链接

1.paper原文https://www.pnas.org/content/116/37/18479

2.数据链接 https://figshare.com/articles/Datasets_for_Tetep_genome_analysis/7775810/1

3.Fasttree http://www.microbesonline.org/fasttree/

上一篇下一篇

猜你喜欢

热点阅读