Hi-C数据质控原理
2020-03-25 本文已影响0人
seqyuan
作者:ahworld
链接:Hi-C数据质控原理
来源:微信公众号-seqyuan
著作权归作者所有,任何形式的转载都请联系作者。
Hi-C文库的插入片段是经过酶切连接的片段,其测序数据的比对和有效数据的筛选比较特殊。这个视频重点介绍了以下3个方面:
- Hi-C实验建库原理
- Hi-C数据的比对策略
- Hi-C文库的分子类型
Hi-C实验建库原理
Hi-C实验建库原理的部分重点介绍了什么样的实验建库原理导致了"PE测序的Reads1 Reads2分别来自不同的基因组酶切片段才符合Valid Pair Reads特征"
Hi-C数据常用的数据质控软件HiC-Pro的主要分为:Alignment和Map2Fragment两个主要步骤。
Hi-C数据的比对策略
在这一部分重点介绍了以下4点内容:
- Reads1 Reads2分别比对到基因组
- 挑选R1、R2分别比对到基因组唯一位置的PE Reads进行后续分
- Hi-C文库是junction类型,对于跨LS site的Reads有提高比对率的比对策略设计
- 建议在平衡unique map 和multiple map的情况下用比较短的Reads进行比对(避免Reads跨过ligation site)
Hi-C文库的分子类型
这一节主要讲了,对来源于相同酶切片段的PE Reads进行细分统计,有利于我们改进Hi-C实验条件,实现Valid reads比例的提升。Dangling 太高可能是由于连接步骤不好,导致后面步骤末端生物素没有去除干净等原因
对map到不同酶切片段的Pre Valid Pair Reads再进行严格质控是Dumped reads pair的主要来源。具体的严格质控点包括:
- R1/R2 所在的Fragment1/Fragment2 大小不符合设定范围
- Prediction insert size不在设定的参数范围
“R1和R2比对到同一条染色体的情况,R1与R2比对位置之间的线形距离过小”的情况该不该被去除?,如果想去除选择设置哪个参数?
Re-Ligation是什么?怎样产生的?
Hi-C文库的PCR Dup应该怎么处理?为什么需要处理。
如果对这些问题感兴趣,欢迎观看视频。