生信分析流程ATACSeq 开放染色质分析生物信息

Week26 — 人类原发性肿瘤的染色质可及性图谱-03

2018-12-09  本文已影响13人  六六_ryx

Week24 — 人类原发性肿瘤的染色质可及性图谱-01: 主要回顾了ATAC-seq方法的原理和优点,并与其他研究染色质可及性方法的比较,然后介绍了这篇文章的主要结果和亮点以及提供的数据资源。
Week25 — 人类原发性肿瘤的染色质可及性图谱-02:介绍了文章思路和主要结果。
这篇文章主要了解下补充材料的分析方法。


1. ATAC-seq数据预处理和比对

ATAC-seq预处理和比对使用的是PEPATAC pipeline(http://code.databio.org/PEPATAC/)。
PEPATAC pipeline是一个打包的ATAC-seq数据预处理流程,包括对原始数据的去接头、比对、call peak、创建bigwig、TSS富集文件等其他一些统计结果文件。
输出的图如:


具体包括:
-k 1 -D 20 -R 3 -N 1 -L 20 -i S,1,0.50 -X 2000 –rg-id # remove repeats的参数
--very-sensitive -X 2000 --rg-id # bowtie2参数
-f 2 -q 10 -b -@ 20 # 排序参数
VALIDATION_STRINGENCY =LENIENT REMOVE_DUPLICATES = true #去重参数

2. call peaks(MACS2)

这里他们选用固定宽度(fixed-width)的peaks,优点有:1)对大量的peaks进行counts和motif分析时可以减小误差;2)对于大量数据集的可以合并峰得到一致性的peaks;
使用的是macs2 call peaks,参数如下:

--shift -75 --extsize 150 --nomodel --call-summits --nolambda --keep-dup all -p 0.01

同时根据hg38 blacklist过滤,并除去染色体两端以外的峰。
一个样本的overlaps他们是通过迭代移除的方法,首先保留最显著的peak,然后任何与最显著peak有直接overlap的peaks都被移除;接着对另一个最显著性的peak进行相同的操作,最终保留所有更显著的peaks,移除与其有直接overlaps的peaks。

3. ATAC-seq数据分析—— 构建counts矩阵并标准化

为了获得每个峰中独立的Tn5插入的数量,首先用RRsamtools “scanbam”对BAM文件矫正Tn5偏移量(“+” stranded +4 bp, “-” stranded -5 bp)并存入Genomic Ranges对象。然后用“countOverlaps”对矫正后的插入位点计数,最终得到 562,709 x 796 counts 矩阵。
counts矩阵用edgeR “cpm(matrix , log = TRUE,prior.count = 5)”标准化,然后用R中的preprocessCore’s “normalize.quantiles”做分位数标准化。

4. ATAC-seq data analysis – Transcription factor footprinting

TF足迹的分析:
一是参考了文章doi: 10.1016/j.celrep.2017.05.003:

5. ATAC-seq data analysis – chromVAR for transcription factor activity

除了足迹分析,他们还用chromVAR包评估TF的活动,首先用chromVAR deviations函数计算GC矫正偏差,然后将矫正偏差与motif相关的TFs关联,最后5000个转录因子基序和非相关转录因子基因的RNA-seq基因表达之间的随机相关性,以计算每个相关性的FDR。具体参考:Week4— chromVAR:预测染色质可及性相关的转录因子

6. ATAC-seq data analysis – chromVAR for GWAS enrichment

上一篇下一篇

猜你喜欢

热点阅读