再回顾 | 使用 TBtools 进行 BSAseq/QTLse
2023-08-13 本文已影响0人
生信石头
写在前面
种种原因,我需要重新跑一次 TBtools 的 BSAseq 流程,进而明确过程中需要记录的内容:
- CPU 配置
- 内存占用
- 硬盘占用
等等之类。于是有了今天这个帖子。
测试环境
CPU:12th Gen Intel(R) Core(TM) i5-12600KF
内存:
硬盘:
下载数据
参考基因组,直接在番茄基因组信息网站下载即可
https://solgenomics.net/ftp//tomato_genome/assembly/build_4.00/S_lycopersicum_chromosomes.4.00.fa.gz
测序数据,在NCBI SRA数据库下载,Nature Plant 番茄文稿的一组数据
SRR8307487 suppressed_A https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/SRR008/307/SRR8307487/SRR8307487.sralite.1
SRR8307489 branched_A
详细数据概况
对数据进行重命名
下载与安装插件
分别安装以下五个插件,其中
Rserver插件是所有R语言插件的依赖插件,如果之前安装过,就无需再安装。
BWA-MEM2 GUI Wrapper
SAMtools GUI Wrapper
BCFtools GUI Wrapper
Rserver
QTLseqR GUI Wrapper
安装完成后,可以打开插件
读段回贴到基因组(索引~30min,比对 ~2h30min)
如果基因组没有预先索引,那么会自动建立索引。基因组大小为782,520,033bp,内存峰值~12.35Gb,耗费大约 ~30min
比对过程所占内存与使用线程数有关,为了方便电脑其他工作,我只设置了 6 个线程。
每个样品约 45M*2 = 90M reads (总碱基数13G),比对过程的内存峰值6.50Gb,耗费时间~70min。共两个样品,故花费接近 2h30min。
产生了两个~7.5Gb的文件,共计 15G(相比于早期插件,新插件默认过滤掉为未匹配上的,减小了空间占用)。
对比对结果进行排序(~25 min)
使用了 6 个线程,内存峰值~5Gb。实际上,我们完全可以通过增加线程数来提高更快完成比对结果排序任务。每个BAM大体使用 12min,两个BAM文件,合计大约使用 25 min。
执行结果产生文件如下
进行重复标记(~5min)
约 2min 一个样品,共两个样品。
进行变异检测(~1h10min)
二倍体,设置 Ploidy 为 2。
可能需要对基因组序列文件进行解压
得到一个
raw.bcf 文件,大体用了 1h10min
进行变异位点过滤 (~1min)
速度非常快,约 1min
进行 QTL 检测 (~5min)
写在最后
早前运行时间在 2 天(>48小时),现在在CPU更差一些的电脑上,但只需要不到5小时。