三代测序技术组装Hi-C文章收藏

Hi-C数据质控原理

2020-03-25  本文已影响0人  seqyuan

作者:ahworld
链接Hi-C数据质控原理
来源:微信公众号-seqyuan
著作权归作者所有,任何形式的转载都请联系作者。

Hi-C数据质控原理-视频

Hi-C文库的插入片段是经过酶切连接的片段,其测序数据的比对和有效数据的筛选比较特殊。这个视频重点介绍了以下3个方面:

Hi-C实验建库原理

Hi-C实验建库原理的部分重点介绍了什么样的实验建库原理导致了"PE测序的Reads1 Reads2分别来自不同的基因组酶切片段才符合Valid Pair Reads特征"

Hi-C数据常用的数据质控软件HiC-Pro的主要分为:Alignment和Map2Fragment两个主要步骤。

Hi-C数据的比对策略

在这一部分重点介绍了以下4点内容:

  1. Reads1 Reads2分别比对到基因组
  2. 挑选R1、R2分别比对到基因组唯一位置的PE Reads进行后续分
  3. Hi-C文库是junction类型,对于跨LS site的Reads有提高比对率的比对策略设计
  4. 建议在平衡unique map 和multiple map的情况下用比较短的Reads进行比对(避免Reads跨过ligation site)

Hi-C文库的分子类型

这一节主要讲了,对来源于相同酶切片段的PE Reads进行细分统计,有利于我们改进Hi-C实验条件,实现Valid reads比例的提升。Dangling 太高可能是由于连接步骤不好,导致后面步骤末端生物素没有去除干净等原因

对map到不同酶切片段的Pre Valid Pair Reads再进行严格质控是Dumped reads pair的主要来源。具体的严格质控点包括:

  1. R1/R2 所在的Fragment1/Fragment2 大小不符合设定范围
  2. Prediction insert size不在设定的参数范围

“R1和R2比对到同一条染色体的情况,R1与R2比对位置之间的线形距离过小”的情况该不该被去除?,如果想去除选择设置哪个参数?

Re-Ligation是什么?怎样产生的?

Hi-C文库的PCR Dup应该怎么处理?为什么需要处理。

如果对这些问题感兴趣,欢迎观看视频。

上一篇下一篇

猜你喜欢

热点阅读