Hi-C测序及测序数据特征
利用Hi-C 技术测序时,首先空间上距离相近的染色质被甲醛分子固定在一起,
然后染色体上的序列被特定的限制性内切酶剪切,产生的切割位点通过连接酶连
接并进行标记,然后 DNA 分子经纯化、获取被标记位点的序列,最后经二代高通量测序就可以获得标记位点的序列(图 1-5)[1]。
通过Hi-C 测序技术可以获得同一染色体上位置相邻较远(如 1 Mb)的测序
序列对[2],也可以获得位于不同染色体上的测序序列对。通过 Hi-C 技术测得的测序序列对具有两个基本特性:
(1)同一染色体上的测序序列对的交互频率随着距离增加递减,此处交互频率指的是两处酶切位点被连接酶连接的频率。
(2)同一染色体上的测序序列对的交互频率显著大于来自不同染色体上测序序列对的交互频率[3]。
规律(1)可以用于对重叠群进行定序和定向;
规律(2)可以用于对单倍体重叠群进行聚类,将重叠群分配到不同的染色体上。
利用 Hi-C 数据的这两个基本特性,可以将 Hi-C 测序数据应用到基因组序列组装和大型结构变异检测上。
参考:
[1] Lieberman-Aiden E, van Berkum N L, Williams L, et al. Comprehensive mapping of
long-range interactions reveals folding principles of the human genome[J]. Science,
2009, 326(5950) : 289-293.
[2] Belton J-M, McCord R P, Gibcus J H, et al. Hi-C: a comprehensive technique to
capture the conformation of genomes[J]. Methods, 2012, 58(3) : 268-276.
[3] Kaplan N, Dekker J. High-throughput genome scaffolding from in vivo DNA inter-
action frequency[J]. Nat. Biotechnol., 2013, 31(12) : 1143-1147.
[4]单倍体基因组序列组装方法研究,哈尔滨工业大学,官登峰.
本文使用 文章同步助手 同步