甲基化测序分析
===============建立索引===========================
bismark_genome_preparation --bowtie2 / --verbose index/
================比对=============================
bismark --bowtie2 -N 0 -L 20 --quiet --un --ambiguous --sam --nucleotide_coverage --genome index/ --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ -o SRR10401142 -1 ../fastq/SRR10401142.1_1.fastq.gz -2 ../fastq/SRR10401142.1_2.fastq.gz
================去重===============================
deduplicate_bismark --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ -p SRR10401142.1_1_bismark_bt2_pe.sam --output_dir dedup
=====================提取甲基化信息==================
bismark_methylation_extractor -p --comprehensive --no_overlap --bedGraph --counts --buffer_size 200G --report --cytosine_report --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ --genome_folder index/ dedup/SRR10401142.1_1_bismark_bt2_pe.deduplicated.bam -o SRR10401142/
生成处理报告:
bismark2report
它包括了比对信息,甲基化信息,M-bias等,可以对数据有一个大概的认知。
![](https://img.haomeiwen.com/i24339453/d7dc20fe87197f90.png)
![](https://img.haomeiwen.com/i24339453/3a99a686f52a03b7.png)
![](https://img.haomeiwen.com/i24339453/0bc834b9f33a09db.png)
结果合并正反链的数据后会输出CpG/CHG/CHH三种类型的甲基化文件,包含了胞嘧啶所有的组合形式,但实际上我们自然最关注的是CpG位点的甲基化。其中
CpG_context_SRR10401142.1_1_bismark_bt2_pe.deduplicated.txt即CpG甲基化位点的文件。
![](https://img.haomeiwen.com/i24339453/132bf758902a8074.png)
# 第一列为测序信息
# 第二列为甲基化状态 + 代表甲基化 -代表未甲基化
# 第三列代表chromosome
# 第四列代表location
# 第五列代表methylation call,简单来说大写的就是甲基化的(因为还有CHG,CHH的数据,分别对应x, X , h, H)
SRR10401142.1_1_bismark_bt2_pe.deduplicated.bismark.cov.gz文件则给了每个位点的甲基化比例,为下一步确定CpG岛提供了基础,其数据形式如下:
![](https://img.haomeiwen.com/i24339453/24a6a0b15a174237.png)
其中:# 第一列代表chromosome # 第二,三列代表location # 第四列代表甲基化百分比
# 第五列代表甲基化数目 # 第六列代表未甲基化数目