关于测序的背景与实验

WGBS流程分析记录

2019-08-18  本文已影响74人  机器人会画画

这是学习笔记,视频来自B站。视频地址在这儿
github项目地址

step1 Download

step2 SRA转化为fastq

step3 fastqc

step4 trim_galore去除低质量的reads

mkdir bak_sh 
mv cmd2_sra2fq_fastqc.sh*  bak_sh
ls *.sra

vi cmd2_sra2fq.sh

fastq-dump EV1.sra &
fastq-dump EV2.sra &
fastq-dump EV3.sra &
wait
#利用多核优势,同时挂起,然后继续
fastqc EV1.sra &
fastqc EV2.sra &
fastqc EV3.sra &
wait

sh cmd2_sra2fq.sh

更高级的做法: snakemake搭建生信流程
真核生物的DNA甲基化主要是,发生在胞嘧啶C上面,主要是在5号C原子上。
缠绕在核小体上
转座子区,有甲基化发生,功能不确定。


为什么叫CpG?

真核生物的DNA甲基化主要是,发生在胞嘧啶C上,且主要是在5号C原子上。
CG context CG背景下
CG noncontext 非CG背景下 2种情况
CHG CHH(H指的是四种碱基中的任意一种A|T|G|C)
CG和CHG是互补对称的 CHH不是互补对称的


在动物里面,CpG island 就是在基因组某些区域,尤其是很多基因的Promoter区,他都会有一些CpG岛,当CpG岛发生甲基化时,基因一般是被抑制的。
大量的转座子一般甲基化且是Hypermethlated,抑制表达。

CTOT#OT链的互补链


#fastq文件
#fastqc文件

raw_data_WGBS
head 3bstrain1.fastq #查看
#下载TrimGalore
#到github上找到项目的releases 选择各种版本,source code (tar.gz)
mkdir tool
cd tool 
wget https://……
tar zxvf +文件名
#用perl写的基本不需要怎么安装,直接可以去用
#需要cutadapt
cutadapt 
#添加环境变量
pwd 
vi ~/.bashrc 
path = $PATH:/绝对路径
source ~/.bashrc 
trim_galore --length 75 #75,70差别不大
#单行命令运行成功了以后批量操作:
vi  cmd4_trim_galore.sh
ls *.fastq
#a1.fastq a2.fastq a3.fastq
trim_galore --length 75 a1.fastq &
trim_galore --length 75 a2.fastq &
trim_galore --length 75 a2.fastq &
wait

Quality encoding type selected :ascII + 33

创建软连接:同样的文件你不需要copy2次
#
ls bismark_index/Bisulfite_Genome

bismark_index --help

vi cmd5_trim_galore.sh #第5步
#做任何工作之前,先把软件的Menu先通读一遍
#有 samtools,
bismark ../ref/bismark_index/ 3bstrain1.fastq 2>3bstrain1.fastq.log &
bismark ../ref/bismark_index/ 3bstrain2.fastq 2>3bstrain2.fastq.log &
bismark ../ref/bismark_index/ 3bstrain2.fastq 2>3bstrain3.fastq.log &
wait


sh cmd5_trim_galore.sh
cat *log #查看报错信息
#source ~/.bashrc
#输出的文件 fastq_C_to_T

之后再做一次FastQC

可以查看mapping率
vi cmd6_trim_galore.sh #第6步

deduplicate_bismark -p --EV1_bismark_bt2.bam 2>EV1_bismark_bt2.dedup.log &
deduplicate_bismark -p --EV2_bismark_bt2.bam 2>EV2_bismark_bt2.dedup.log &
deduplicate_bismark -p --EV3_bismark_bt2.bam 2>EV3_bismark_bt2.dedup.log &


#2定向输出
sh cmd6_trim_galore.sh
上一篇下一篇

猜你喜欢

热点阅读