宏基因组分析概述
测序数据预处理——质控:Trimmomatic
测序数据预处理——质控统计:FastQC
序列组装与基因预测——拼接:MEGAHIT
序列组装与基因预测——ORF预测:Prodigal
拼接和装箱binning——组装拼接:Megahit;组装评估quast;;基因注释:prokka;构建非冗余基因集:CD-HIT;基因组可视化(Circos,Vizbin);宏基因组中鉴定单菌(分箱bin):MetaWRAP;bin结果评估及可视化:CheckM,VizBin
基因集构建与丰度计算——全部基因聚类:Linclust,identity=0.9
基因集构建与丰度计算——基因丰度统计:bbmap
基因集构建与丰度计算——于基因丰度的样品间相关性分析(计算两两样品间全部基因丰度的spearman相关性)
物种与功能注释——注释软件:NR库、MEGAN、MetaPhlAn2物种组成、HUMAnN2功能组成
物种与功能注释——展示物种丰度:Krona,Graphlan、Kraken、Kraken2
物种与功能注释——注释数据库:代谢通路KEGG,同源基因簇eggNOG注释,COG
物种与功能注释——不常用注释:CAZy注释;ARDB-BacMet抗生素抗性基因注释;VFDB致病菌毒力因子注释;PHI病原与宿主互作注释;TCDB转运蛋白分类注释;Pfam注释
物种与功能组成分析——物种-功能拼接柱状图、物种-功能Veen图、物种-功能丰度聚类Heatmap图、物种-功能Bubble图、Ternary三元相图
样本间比较分析——样本间相关性分析:spearman相关系数 ;UPGMA聚类分析:基于Bray-Curtis距离矩阵 ;PCA,PCoA,NMDA,NDS
组间差异显著性分析——adonis;anosim;mrpp
组间差异物种或功能鉴定——Wilcoxon;T检验;多组间LEFSe;STAMP
环境因子关联分析——物种-环境因子spearman相关性;功能-环境因子spearman相关性;heatmap、CCA、RDA、VPA
网络分析——igraph、WGCNA、Cytoscape、Gephi
多基因连接数构建——RaxML、fasttree、iTOL
在线流程——MEGAN、MG-RAST、EBI-metagenome
1. [endif]物种组成(包括宿主、细菌、真菌、病毒、原声动物等)
2. [endif]功能基因组成–潜在的功能
3. [endif]组间物种和功能差异分组有关的物种分类(种/属/科)和功能(通路/模块/同源簇/基因)
4. [endif]未知菌种基因组拼接【【【无参特有】】】
有参流程:质控–物种组成和功能组成分析–差异分析及可视化
无参流程:质控–物种分类–序列拼接–基因注释–去冗余–基因定量–功能注释–差异分析及可视化(获得未被注释的物种和基因表达;通过binning挖掘新物种的基因组)
参考:
https://mp.weixin.qq.com/s/bcyvhFrNr6niqD13rQfZeg?
宏基因组关联分析:https://mp.weixin.qq.com/s/CcDuohwezquBRhBW3FvMSg?
4篇宏基因组分析文章https://mp.weixin.qq.com/s/sRHgsTYArL7f3h3PoECG-g