chromosome radial organization
前言
今天继续记录一下关于HiC的内容——染色体径向分布。刚开始接触这个问题的时候,本人也是一脸茫然。经过查阅资料和文献,总算有一点眉目了,记录一下以便交流。说染色体径向分布问题之前,我们首先要明白另一个概念——染色质疆域(chromosome-territories,CT),即细胞核内的染色质分布并不是随机分布的,而是不同染色体占据不同的空间。这一概念也在2007年通过实验结果得到验证。实验内容大致如下,通过激光对基因组造成局部损伤,如果是随机分布,则受损区域会趋向分布在更多的染色体上,而如果是疆域分布的话,则只会集中在少部分染色体上。结果如下图b所示,实验只造成了个别染色体受损,证明了染色体疆域分布的正确性。
chromosome radial organization
真核生物细胞中非随机分布染色体区域的放射状组织在核内的功能划分中起着重要作用。目前,越来越多的方法被开发用来从Hi-C数据中捕获染色体构象用于表征不同细胞类型和条件下的基因组结构。通过计算的方法,从Hi-C数据中提取出来的CT在细胞中三维位置的排列信息,也将有助于我们研究野生型和处理组中 CT 的变化。故有人实现了一个方法来推断样本内各个染色体的径向距离(从核心到核外围的距离),流程示意图如下:
流程大致可以概括为以下内容:
- 根据筛选条件为>95th(全矩阵交互值的第95分位值)和染色体内交互变为0,从而获取Hi-C中inter-chromosomal的交互矩阵用于后续使用。
- 第一步得到的矩阵使用graphs方法构建3D网络,获得距离矩阵(每个染色体会重复很多次),并对距离矩阵采用kmean方法聚类。
- 第一步得到的矩阵做PCA分析后使用PC1计算与基因密度和染色体长度的相关性。
- 结合第二步和第三步的结果,得到与基因密度或者染色体长度最相关的径向距离cluster。
- 结合基因密度和染色体长度与第四步的cluster,最后得到径向距离。
对于分析的过程,文章作者在github上提供了python的分析脚本,详细见网址https://github.com/rpmccordlab/Radial-CT-Analysis-HiC。主要使用的是mat2net.py
、dist2rad.py
、net2dist.py
三个脚本。下面是脚本的使用示例:
python mat2net.py -i GM12878-Control-R2__hg19__genome__C-2500000-iced.matrix.gz -n 100 -o test_dir
# -i : input file name in .matrix.gz format
# -n : number of samples (network structures)
# -o : location of the output directory for generated samples
python net2dist.py -l GM12878-Control-R2__hg19__genome__C-2500000-iced.matrix.gz.label -n 100 -g GM12878-Control-R2__hg19__genome__C-2500000-iced.matrix.gz.gexf -s test_dir
# -l : input file name in .label format (generated using the first command)
# -n : number of samples (network structures)
# -g : input network configuration file name in .gexf format (generated using the first command)
# -s : location of samples as input
python dist2rad.py -W ignore -i GM12878-Control-R2__hg19__genome__C-2500000-iced.matrix.gz -d test_dirDist.txt
# -i : input file name in .matrix.gz format
# -d : input network model distances in .txt format (generated using the second command)
得到染色体径向距离后,可以用雷达图来展示不同样本里面各个染色体的相对距离是否有变化。
结束语
CT Distance
分析流程不是很难理解,使用作者的脚本也可以自己完成分析。不过,得有一定的python基础,因为作者的脚本里面有硬编码的方式,想要使用脚本必须经过修改,将里面的文件及输入的信息(如基因密度和染色体长度)替换为自己的。还有就是结果得到的应该是相对径向距离,即样本内部各个染色体从核心到核外围的距离,如果要比较不同样本的情况,应该先将距离转换为从内到外的相对排序,以便比较不同样本中染色体位置的相对变化。个人觉得这个染色体的径向分布确实是一个不错的信息,可以帮助我们分析不同条件下染色体相对分布情况。本人也用文章中的数据测试过这个分析,不过未能得到与作者比较一致的结果,并且重复样本的结果出入也比较大。因此,个人觉得这个分析方法应该属于数据敏感性,容易受数据本身的影响(如果说的不对,请忽略)。希望后面会有更稳定、更完善的分析方法。这里顺便提一下,其实有一个专门用来研究径向距离的测序方法——GPSeq。这个方法到底怎么样,感兴趣的可以试一试。
参考文献
1、《Inferring chromosome radial organization from Hi‑C data》
2、《GPSeq reveals the radial organization of chromatin in the cell nucleus》