文献分享——Occupancy maps of 208 chro
一种人类细胞类型中208个染色质相关蛋白质的占据图谱
image期刊名: Nature
影响因子: 42.778
发表日期: 2020.7.29
下载地址: https://www.nature.com/articles/s41586-020-2023-4
一、背景简介
转录因子是在基因调控过程中起着关键作用的DNA结合蛋白。全基因组的转录调节因子占据图对于理解基因调节及其对多种生物过程的影响非常重要。但是,在人类基因组中编码的1,600多种转录因子中,只有一小部分被检测了。
这篇文章作为ENCODE项目的一部分,使用人类使用人类Hepg2细胞系中的208个 染色质相关蛋白质(CAP) 进行高通量测序,然后对得到的染色质免疫沉淀数据进行处理和分析。本文旨在尽可能完整的概述这种细胞类型的基因调控网络。
二、数据来源
大约有960个蛋白质在HepG2细胞系中表达(FPKM>1),其中有208个蛋白有对应的高通量数据,对它们展开研究
数据分布 其中
有92个蛋白的数据来自传统的ChIP-seq实验,从ENCODE可以下载,其余116个蛋白的数据来自CRISPR表位叠加的ChIP-seq实验,从CRISPR数据库下载数据。
三、数据分析
step1:研究了208个染色质相关蛋白的结合是如何在基因组中分布的
主成分分析第一个图:显示出两个以上的因子结合的基因组片段基于因子结合数分离。
第二个图:将启动子近端与远端分开,随着蛋白的增加,分界线逐渐不明显。
第三个图:CTCF的结合可能是基因离散分布的原因。
用IDEAS对HepG2的基因组进行注释,最后将基因聚类为五类,分别是Gene body,Promoter-like,Insulator,Euchromatin,Enhancer-like.
接着根据主成分分析对染色质相关蛋白至进行聚类分析
由图显示不同类别的染色质相关蛋白对不同的基因区域有偏好性。
RF为了验证这个发现,用随机森林机器学习方法,以染色质相关蛋白为特征预测增强子和启动子,其准确度达到80%
step2:进行模体分析操作,从而揭示染色质相关蛋白之间的关联。
对171个转录因子中的160个转录因子从源头衍生的293个高置信度的motif集合,与Jaspar和CIS-BP数据库中的motif进行比较,发现相似度大于80%
通过与数据库motif的比较将这293个motif分为三类
- 蓝点代表与被测因子匹配的motif(114个)
- 黄点表示与被测因素之外的其他因素相匹配的motif(156个)
- 红点表示与CIS-BP中的motif不同的motif(23个)
对motif进行主成分分析,发现可以将落在启动子区和增强子区的motif区分开来。
随机森林预测接着仅用motif作为特征,预测启动子区和增强子区,发现仅用40个motif准确率也可达到80%
step3:已知的染色质相关蛋白和新发现的染色质相关蛋白之间的关联。
- 转录因子和染色质调节蛋白可以通过直接和间接的物理缔合与其他蛋白相互作用并募集其他蛋白。
- 一些关键蛋白的活性对于细胞状态特异性表达可能非常重要,但是也可能需要组合事件来微调表达。
通过以上聚类分析发现众多已知以及新的蛋白相互作用介导基因表达。
四、讨论
- 这项研究介绍了人类转录因子、转录辅助因子、组蛋白结合或组蛋白修饰蛋白以及其他染色质调节因子的占用图谱。
- 在单个细胞系中建立完整的染色质相关蛋白的相互作用对于深入了解基因调控原理以及探索蛋白间的相互作用等提供了更加有优势的数据资源。