再回顾 | 使用 TBtools 进行 BSAseq/QTLse

2023-08-13  本文已影响0人  生信石头

写在前面

种种原因,我需要重新跑一次 TBtools 的 BSAseq 流程,进而明确过程中需要记录的内容:

  1. CPU 配置
  2. 内存占用
  3. 硬盘占用

等等之类。于是有了今天这个帖子。

测试环境

CPU:12th Gen Intel(R) Core(TM) i5-12600KF



内存:



硬盘:

下载数据

参考基因组,直接在番茄基因组信息网站下载即可

https://solgenomics.net/ftp//tomato_genome/assembly/build_4.00/S_lycopersicum_chromosomes.4.00.fa.gz

测序数据,在NCBI SRA数据库下载,Nature Plant 番茄文稿的一组数据

SRR8307487  suppressed_A   https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-11/SRR008/307/SRR8307487/SRR8307487.sralite.1
SRR8307489  branched_A  

详细数据概况



对数据进行重命名


下载与安装插件


分别安装以下五个插件,其中Rserver插件是所有R语言插件的依赖插件,如果之前安装过,就无需再安装。
BWA-MEM2 GUI Wrapper
SAMtools GUI Wrapper
BCFtools GUI Wrapper
Rserver
QTLseqR GUI Wrapper


安装完成后,可以打开插件


读段回贴到基因组(索引~30min,比对 ~2h30min)

如果基因组没有预先索引,那么会自动建立索引。基因组大小为782,520,033bp,内存峰值~12.35Gb,耗费大约 ~30min


比对过程所占内存与使用线程数有关,为了方便电脑其他工作,我只设置了 6 个线程

每个样品约 45M*2 = 90M reads (总碱基数13G),比对过程的内存峰值6.50Gb,耗费时间~70min。共两个样品,故花费接近 2h30min。

产生了两个~7.5Gb的文件,共计 15G(相比于早期插件,新插件默认过滤掉为未匹配上的,减小了空间占用)。

对比对结果进行排序(~25 min)

使用了 6 个线程,内存峰值~5Gb。实际上,我们完全可以通过增加线程数来提高更快完成比对结果排序任务。每个BAM大体使用 12min,两个BAM文件,合计大约使用 25 min。



执行结果产生文件如下


进行重复标记(~5min)

约 2min 一个样品,共两个样品。



进行变异检测(~1h10min)

二倍体,设置 Ploidy 为 2。


可能需要对基因组序列文件进行解压
得到一个 raw.bcf 文件,大体用了 1h10min

进行变异位点过滤 (~1min)


速度非常快,约 1min


进行 QTL 检测 (~5min)


写在最后

早前运行时间在 2 天(>48小时),现在在CPU更差一些的电脑上,但只需要不到5小时。

上一篇 下一篇

猜你喜欢

热点阅读