hi-c辅助基因组组装简介
欢迎关注”生信修炼手册”!
hi-c一次建库可以获取全基因组范围内的染色质互作信息,从而去研究染色质三维结构的不同层级单元,。通过hi-c来研究染色质三维结构,是其主要应用场景。除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。
在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。然而,在草图的基础上,想要进一步得到基因组的完成图,就不是单纯的增加测序量可以解决的事情。为了明确草图中各个scaffold对应的染色体以及各自在基因组上的排列顺序,经典的解决方案是通过构建长片段的mate pair文库来确定scaffold的连接顺序,从而可以将各个scaffold连接起来,不断延伸以达到染色体的组装级别。
由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言。当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。
通过hi-c数据,科学家发现在同一条染色体上的染色质片段互作频率更高,不同染色体间的互作频率较低。利用这一特性,有人提出了利用hi-c数据来辅助基因组组装的思路,对应的文章发表在nature biotechnology上,链接如下
https://www.nature.com/articles/nbt.2727
在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示
分成了三个步骤,第一步首先根据scaffold/contig的hi-c交互矩阵,进行聚类,属于同一条染色体的scaffold/contig聚到一起;第二步确定同一染色体上的多个scaffold/contig的排列顺序;第三步确定scaffold/contig的方向性。下面来具体看一下
1. cluster
该部分对contig进行聚类,算法的原理示意如下
图a所示有5个contig, 来自于两条染色体,用不同颜色表示,contig之间连线的粗细对应hi-c矩阵中交互频率的高低。聚类的第一步首先将交互频率最高的两个contig作为一类,对应图b中的圆角矩形,聚为一类的两个contig作为一个这个整体重新计算和其他contig的互作频率。依次循环,每次循环都将互作频率最高的两个contig或者cluster聚为一类,直到所有的contig都划分到cluster为止。
从聚类的原理可以看到,正是利用了同一个染色体片段间的互作频率高的特点,将每次互作频率高的contig聚为一类。聚类完成之后,属于同一个染色体的contig就聚集在了一起。
2. order
该部分确定同一组contig排列的先后顺序,算法的原理示意如下
这部分应用到了图论中的各种算法,理解不到位,就不展开了。
3. orientation
该部分确定contig的方向,算法的原理示意如下
这部分应用到了图论中的各种算法,理解不到位,就不展开了。
结合Hi-C数据,可以明确基因组草图中scaffold和染色体对应关系,确定scaffold之间的排列顺序和方向,进一步提高了组装的精度。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!