微生物组(16S rRNA)数据分析套件PMS尝鲜
前几日宏基因组公号上推送了《iMeta:青岛大学苏晓泉组开发跨平台可交互的微生物组分析套件PMS》一文,但软件中示例文件貌似是单端数据,于是想着拿手里一批已发表过的双端测序16S数据集尝试一番。
![](https://img.haomeiwen.com/i23362864/cd8fc8eceac42c9e.png)
准备
代码Tutorial:
Github:https://github.com/qdu-bioinfo/parallel-meta-suite
Gittee:https://gitee.com/qdu-bioinfo/parallel-meta-suite
视频Tutorial:
Bilibili:https://www.bilibili.com/video/BV12F411s7uM/
Youtube:https://youtu.be/bSdrUSpzNDg
- 一台服务器/Win WSL (配置RAM 8GB/CPU 4+cores)
安装PMS
wget http://bioinfo.single-cell.cn/Released_Software/parallel-meta/3.7/parallel-meta-suite-3.7-src.tar.gz
tar -xzvf parallel-meta-suite.tar.gz
cd parallel-meta-suite.tar.gz
source install.sh
如果你用的Xshell,这里安装过程中会提醒你安装Xmanger,官网下载即可,个人版可以免费一个月,然后登录服务器时候在属性里点击隧道-> 连接即可,然后等shell脚本自动安装完就行了。
![](https://img.haomeiwen.com/i23362864/8951dd27c1f53790.png)
使用
![](https://img.haomeiwen.com/i23362864/56fac624b8ca3284.png)
安装完目录结构如下所示,
![](https://img.haomeiwen.com/i23362864/2fa34590bc62f60c.png)
example文件下有示例文件,执行文件在bin目录下。
![](https://img.haomeiwen.com/i23362864/b262757057d8d5fa.png)
我们只需要准备三个文件
- meta.txt :包含每个样品的meta信息,最基本的分组信息,如果有其他指标的话可以添加,我这里有12个样品,各6个生物学重复。
![](https://img.haomeiwen.com/i23362864/4e655d537feb32b7.png)
-
seqs.list :记录这些样品序列的相对路径
image
-
seqs文件夹:记录每个样品测序fastq序列,就是我们最原始的未拆分的下机序列。
![](https://img.haomeiwen.com/i23362864/8db6e9f78a0e9119.png)
OK,这三个文件准备好之后,我们只需要一条命名即可运行
PM-pipeline -i seqs.list -m meta.txt -o out_dir
运行之前我们先PM-pipeline -h一下了解还有哪些可用的参数:
-
-D: 选择数据库,默认为G(GreenGenes-13-8 16S rRNA 97%level), S (SLIVA 16SrRNA数据库), O (Oral_Core 16S rRNA),E(SLIVA 18S rRNA), T(ITS ITS1), C (GreenGenes-13-8 16S rRNA 99%level)
-
-M: 测序类型T(shotgun)或者F(rRNA)
-
-r: rRNA拷贝数教程,默认T
-
-k:测序格式检查 默认F
-
-f:功能分析(预测),默认T
-
-v:ASV去噪,默认T
-
-c: 嵌合体去除 默认T
-
-d: 序列比对阈值(0~1直接)使用ASV时候默认0.99
-
-L: 分类水平(1-6:门-种)
-
-w: 分类聚类类型: 0 加权 1非加权 2都有
-
-F: 功能分析水平(指定KEGG LEVEL 1,2,3或者4(KO号))
-
-s:测序数量标准化深度
-
-R: 稀释曲线
-
-E: 双端数据 T, 默认F
-
-G: 网络分析边(相关性)的筛选阈值:默认0.5
接下来我们选择有用的参数运行命令
nohup PM-pipeline -i seqs.list -m meta.txt -t 10 -R -E T -D S -o out_dir &
我设置10线程,大概40min作用,目录下生产了out_dir文件
![](https://img.haomeiwen.com/i23362864/d0dafd9597d466b0.png)
目录传输到本地,index.html文件方便查询我们的结果。
![](https://img.haomeiwen.com/i23362864/122ca4d2b14ae808.png)
查看其中的一些结果,物种与功能的Alpha、Beta、群落组成,随机森林,网络分析等等基本都一键生成了,仔细观察结果,之前文章中用的是老一套97%OTU聚类方法,现在换成了ASV算法得到结果基本一致,对于属水平的鉴定也似乎精准了不少。
![](https://img.haomeiwen.com/i23362864/80a7f63db88a22dd.png)
感慨:该流程化套件真的降低了我们数据分析的门槛,以后拿到数据后可以直接一键跑个流程根据结果初步挖掘有用信息,大大提高了我们的科研效率,曾经也上游shell,下游R写了流程化的脚本,现在看来这个用起来更便捷些,没必要重复造轮子了(这里reaspect开发人员), 针对些重要结果个性化分析出图就行了~~
另外,想起之前也介绍过一个16s下游流程化分析可视化的R包Microeco也值得我们学习:使用Microeco包轻松分析你的16S扩增子数据