WGBS流程分析记录
2019-08-18 本文已影响74人
机器人会画画
这是学习笔记,视频来自B站。视频地址在这儿
github项目地址
step1 Download
step2 SRA转化为fastq
step3 fastqc
step4 trim_galore去除低质量的reads
mkdir bak_sh
mv cmd2_sra2fq_fastqc.sh* bak_sh
ls *.sra
vi cmd2_sra2fq.sh
fastq-dump EV1.sra &
fastq-dump EV2.sra &
fastq-dump EV3.sra &
wait
#利用多核优势,同时挂起,然后继续
fastqc EV1.sra &
fastqc EV2.sra &
fastqc EV3.sra &
wait
sh cmd2_sra2fq.sh
更高级的做法: snakemake搭建生信流程
真核生物的DNA甲基化主要是,发生在胞嘧啶C上面,主要是在5号C原子上。
缠绕在核小体上
转座子区,有甲基化发生,功能不确定。
为什么叫CpG?
真核生物的DNA甲基化主要是,发生在胞嘧啶C上,且主要是在5号C原子上。
CG context CG背景下
CG noncontext 非CG背景下 2种情况
CHG CHH(H指的是四种碱基中的任意一种A|T|G|C)
CG和CHG是互补对称的 CHH不是互补对称的
在动物里面,CpG island 就是在基因组某些区域,尤其是很多基因的Promoter区,他都会有一些CpG岛,当CpG岛发生甲基化时,基因一般是被抑制的。
大量的转座子一般甲基化且是Hypermethlated,抑制表达。
CTOT#OT链的互补链
#fastq文件
#fastqc文件
raw_data_WGBS
head 3bstrain1.fastq #查看
#下载TrimGalore
#到github上找到项目的releases 选择各种版本,source code (tar.gz)
mkdir tool
cd tool
wget https://……
tar zxvf +文件名
#用perl写的基本不需要怎么安装,直接可以去用
#需要cutadapt
cutadapt
#添加环境变量
pwd
vi ~/.bashrc
path = $PATH:/绝对路径
source ~/.bashrc
trim_galore --length 75 #75,70差别不大
#单行命令运行成功了以后批量操作:
vi cmd4_trim_galore.sh
ls *.fastq
#a1.fastq a2.fastq a3.fastq
trim_galore --length 75 a1.fastq &
trim_galore --length 75 a2.fastq &
trim_galore --length 75 a2.fastq &
wait
Quality encoding type selected :ascII + 33
创建软连接:同样的文件你不需要copy2次
#
ls bismark_index/Bisulfite_Genome
bismark_index --help
vi cmd5_trim_galore.sh #第5步
#做任何工作之前,先把软件的Menu先通读一遍
#有 samtools,
bismark ../ref/bismark_index/ 3bstrain1.fastq 2>3bstrain1.fastq.log &
bismark ../ref/bismark_index/ 3bstrain2.fastq 2>3bstrain2.fastq.log &
bismark ../ref/bismark_index/ 3bstrain2.fastq 2>3bstrain3.fastq.log &
wait
sh cmd5_trim_galore.sh
cat *log #查看报错信息
#source ~/.bashrc
#输出的文件 fastq_C_to_T
之后再做一次FastQC
可以查看mapping率vi cmd6_trim_galore.sh #第6步
deduplicate_bismark -p --EV1_bismark_bt2.bam 2>EV1_bismark_bt2.dedup.log &
deduplicate_bismark -p --EV2_bismark_bt2.bam 2>EV2_bismark_bt2.dedup.log &
deduplicate_bismark -p --EV3_bismark_bt2.bam 2>EV3_bismark_bt2.dedup.log &
#2定向输出
sh cmd6_trim_galore.sh