Hi-C数据质控原理

2020-03-25 本文已影响0人 seqyuan

作者：ahworld
链接：Hi-C数据质控原理
来源：微信公众号-seqyuan
著作权归作者所有，任何形式的转载都请联系作者。

Hi-C文库的插入片段是经过酶切连接的片段，其测序数据的比对和有效数据的筛选比较特殊。这个视频重点介绍了以下3个方面：

Hi-C实验建库原理的部分重点介绍了什么样的实验建库原理导致了"PE测序的Reads1 Reads2分别来自不同的基因组酶切片段才符合Valid Pair Reads特征"

Hi-C数据常用的数据质控软件HiC-Pro的主要分为：Alignment和Map2Fragment两个主要步骤。

在这一部分重点介绍了以下4点内容：

这一节主要讲了，对来源于相同酶切片段的PE Reads进行细分统计，有利于我们改进Hi-C实验条件，实现Valid reads比例的提升。Dangling 太高可能是由于连接步骤不好，导致后面步骤末端生物素没有去除干净等原因

对map到不同酶切片段的Pre Valid Pair Reads再进行严格质控是Dumped reads pair的主要来源。具体的严格质控点包括：

“R1和R2比对到同一条染色体的情况，R1与R2比对位置之间的线形距离过小”的情况该不该被去除？，如果想去除选择设置哪个参数？

Re-Ligation是什么？怎样产生的？

Hi-C文库的PCR Dup应该怎么处理？为什么需要处理。

如果对这些问题感兴趣，欢迎观看视频。