ATAC-seq 质控
2020-05-29 本文已影响0人
大吉岭猹
1. 写在前面
- 1 年前看技能树在简书的文字教程第一次跑 ATAC-seq 分析流程,当时还很懵懂,以为每一步只有一个工具,现在通过技能树刚发在 b 站的视频再次学习 ATAC-seq 分析流程,感觉眼界更开阔了,同时看视频总是能偷学到很多 Jimmy 老师的小技巧,简直血赚。
- 视频链接:https://www.bilibili.com/video/BV1C7411C7ez
- 总的一些标准在:https://www.encodeproject.org/atac-seq/
- 涉及的名词解释:https://www.encodeproject.org/data-standards/terms/
2. replicates
- 2 个及以上生物学重复
- 对于无法做生物学重复的样本至少 2 技术重复
3. 总 reads 数
- 单端 25 百万
- 双端 50 百万
- 去重、去线粒体
4. 比对率
- > 95%,可以低至 80%
5. IDR 计算重复情况
- 全称为 Irreproducible Discovery Rate
- 标准:both rescue and self consistency ratios are less than 2
- 目前没需求,先码一下教程:https://www.jianshu.com/p/d8a7056b4294
6. 文库复杂度
- 两个指标
- Non-Redundant Fraction (NRF) > 0.9
- PCR Bottlenecking Coefficients 1 and 2, PBC1 > 0.9, PBC2 > 3
- 保姆教程中有:https://doi.org/10.1186/s13072-020-00342-y
7. peak 数量
- The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
- The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.
8. nucleosome free region (NFR)
- 目前没有找到教程,待补充
9. 插入片段长度统计(单核小体峰)
- 标准:在 147bp 以上,147*2bp 以下处有峰
- 首先从 bam 文件中抓取插入片段长度信息
cd align/
samtools view WT.last.bam|cut -f9>wt_insert_length.txt
- 然后读入 R 画 hist 图即可
a=read.table("wt_insert_length.txt")
hist(abs(a[,1])))
- 数据质量不佳,200bp 的峰不够显著
10. 计算 FRiP 值
- 全称 Fraction of reads in peaks,即位于 peak 坐标范围内的 reads 占总 reads 的比例
- 标准:FRiP >0.3,可以低至 0.2
- 通过 shell 脚本计算
cd callpeaks/
ls *narrowPeak|while read id;
do
echo $id
bed=../bed/$(basename $id "_peaks.narrowPeak").bed
ls -lh $bed
# a中哪些在b中
ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
totalReads=$(wc -l $bed|awk '{print $1}')
echo $ReadsinPeaks $totalReads
echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
done
- 输出
- 3391770 25099448 FRiP: 13.51%
- 7779551 30565190 FRiP: 25.45%
- 视频中 Jimmy 老师认为应该使用去重和去线粒体之前的 bam 转出来的 bed 来计算 FRiP,这个有待进一步考证
11. TSS 富集程度
- 在衡量背景噪音水平上比 FRiP 更关键
- 标准:
- 教程待补充
友情宣传
- 生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期),你的生物信息学入门课
- 数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课
- 生信技能树的2019年终总结,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路