甲基化分析生信思路生信

一篇文章详解:甲基化(WGBS)数据分析加速

2023-04-12  本文已影响0人  chSNP

全基因组甲基化测序(WGBS)是一种研究DNA甲基化的方法,以全面了解在基因组水平上的表观遗传变化。在进行WGBS数据分析时,通常需要使用专门的比对工具,因为这些工具需要能够处理亚硫酸盐转化后的数据。

以下是四个不同的WGBS比对分析流程:

WGBS甲基化分析流程加速方案

Sentieon BWA + MethyDackel
在甲基化分析中,Sentieon软件可以与其他工具结合使用以提高分析速度和准确性。在这种情况下,Sentieon BWA被用来替换原始的BWA-mem,与MethyDackel结合,建立起Sentieon BWA-Meth流程。

在这个流程中,Sentieon BWA首先负责处理亚硫酸盐转化后的测序数据进行高效的序列比对。由于Sentieon BWA的优化,比对速度和准确性得到了提高,同时减少了计算资源的消耗。

接下来,MethyDackel被用于从Sentieon BWA的比对结果中提取甲基化信息。MethyDackel能够检测甲基化位点,计算甲基化水平,并生成甲基化状态的统计和可视化结果。

通过结合Sentieon BWA和MethyDackel,Sentieon BWA-Meth流程能够为全基因组甲基化分析提供一个高效且准确的解决方案。这使得研究人员可以更快地分析甲基化数据,更有效地挖掘潜在的生物学意义。

具体加速流程

Sentieon处理甲基化数据的过程可以概括如下:

  1. Sentieon甲基化分析流程:


    WGBS分析流程
    • 使用EpiQC研究中的全基因组甲基化测序数据(doi:https://doi.org/10.1101/2020.12.14.421529)。
    • 数据预处理:读取修剪、质量控制。
    • 使用四种不同的分析流程进行比对,包括Bismark、BitmapperBS、BSseeker2和BWAMeth。
    • 使用Sentieon BWA替换原始的BWA-mem,并与MethyDackel结合,建立Sentieon BWAMeth流程。
    • 比对后处理:使用不同的模块进行甲基化位点调用和CpG甲基化水平识别。
  2. 甲基化映射速度比较:


    不同甲基化比对流程性能
    • 每次比较中,使用相同的随机种子对一百万对读取进行随机抽样。
    • 在24个CPU线程的服务器上使用各软件的默认参数运行比对。
    • 记录每个重复实验的性能时间。
    • Sentieon BWA-Meth比原始的BWA-Meth速度提高了2.5倍,与BitMaperBS的速度相似。
  3. 甲基化映射准确性比较:


    不同比对工具的精度比较
    • 比较不同甲基组文库制备中的流程映射准确性;使用Samtools stats和Qualimap生成后比对统计数据。
    • 显示库总读取的参考映射结果分布。
    • Sentieon BWA-meth具有最高的主要映射率和最低的未映射率。
  4. CpG位点读取覆盖率比较:


    不同工具的CpG位点读取覆盖率比较
    • 计算14个库和4个分析流程中识别出的CpG位点的测序覆盖率。
    • 与其他测试工具相比,Sentieon BWA-Meth在CpG位点提供了更高的测序覆盖率。
  5. Sentieon甲基化分析流程结论:

    • Sentieon BWA-Meth与BWA-Meth提供相同的结果。
    • Sentieon BWA-Meth流程显示出最高的处理速度,比开源流程快约2倍。
    • Sentieon BWA-Meth具有最高的主要映射率和最高的CpG位点读取覆盖率。
  6. 应用说明 - 安装

    • 安装bwa-meth
# Prerequisites: samtools # these 4 lines are only needed if you don't have toolshed installed 
wget https://pypi.python.org/packages/source/t/toolshed/toolshed-0.4.0.tar.gz 
tar xzvf toolshed-0.4.0.tar.gz 
cd toolshed-0.4.0 sudo 
python setup.py install

wget https://github.com/brentp/bwa-meth/archive/master.zip 
unzip master.zip 
cd bwa-meth-master
sudo python setup.py install
# Prerequisites: htslib and libBigWig
git clone https://github.com/dpryan79/MethylDackel.git 
cd MethylDackel 
make LIBBIGWIG="/some/path/to/libBigWig.a" 
make install prefix=/some/installation/path
# Only used for indexing reference genome. 
git clone https://github.com/lh3/bwa.git 
cd bwa; make
  1. 准备测试数据

    • 从bwa-meth下载测试数据并使用开源BWA对参考基因组进行索引。
wget https://github.com/brentp/bwa-meth/raw/master/example/ref.fa 
wget https://github.com/brentp/bwa-meth/raw/master/example/t_R1.fastq.gz 
wget https://github.com/brentp/bwa-meth/raw/master/example/t_R2.fastq.gz
bwameth.py index $REF #Indexes with BWA-MEM (default)
  1. 读取比对:

    • 使用Sentieon BWA进行读取比对。

    • 将Sentieon bin文件夹添加到$PATH。

export PATH=<PATH_TO_SENTIEON>/sentieon-genomics-202112.05/bin:$PATH
*   运行bwa-meth,通过sentieon util sort进行排序。 
bwameth.py --threads 16 \
        --reference $REFERENCE \
        $FQ1 $FQ2 | \
sentieon util sort -i - –sam2bam –o output.bam
This software is licensed to [xxxxx@xxxx.xxx] by Sentieon Inc. 
version: sentieon-genomics-202112.06
image.png
  1. 制表:

    • 使用开源工具MethylDackel。
MethylDackel extract ref.fa output.bam
image.png

Sentieon软件下载

上一篇下一篇

猜你喜欢

热点阅读