文献分享——Occupancy maps of 208 chro

2021-04-22  本文已影响0人  生信小工厂
文章概览

一种人类细胞类型中208个染色质相关蛋白质的占据图谱

image

期刊名: Nature

影响因子: 42.778

发表日期: 2020.7.29

下载地址: https://www.nature.com/articles/s41586-020-2023-4

一、背景简介

转录因子是在基因调控过程中起着关键作用的DNA结合蛋白。全基因组的转录调节因子占据图对于理解基因调节及其对多种生物过程的影响非常重要。但是,在人类基因组中编码的1,600多种转录因子中,只有一小部分被检测了。

  这篇文章作为ENCODE项目的一部分,使用人类使用人类Hepg2细胞系中的208个 染色质相关蛋白质(CAP) 进行高通量测序,然后对得到的染色质免疫沉淀数据进行处理和分析。本文旨在尽可能完整的概述这种细胞类型的基因调控网络。

二、数据来源

  大约有960个蛋白质在HepG2细胞系中表达(FPKM>1),其中有208个蛋白有对应的高通量数据,对它们展开研究

数据分布

208个CAPs\left\{\begin{matrix}171 转录因子\\37转录辅助因子+染色质调节蛋白 \end{matrix}\right.

  其中
有92个蛋白的数据来自传统的ChIP-seq实验,从ENCODE可以下载,其余116个蛋白的数据来自CRISPR表位叠加的ChIP-seq实验,从CRISPR数据库下载数据。

三、数据分析

step1:研究了208个染色质相关蛋白的结合是如何在基因组中分布的

主成分分析

第一个图:显示出两个以上的因子结合的基因组片段基于因子结合数分离。

第二个图:将启动子近端与远端分开,随着蛋白的增加,分界线逐渐不明显。

第三个图:CTCF的结合可能是基因离散分布的原因。

判别表观基因组注释

  用IDEAS对HepG2的基因组进行注释,最后将基因聚类为五类,分别是Gene body,Promoter-like,Insulator,Euchromatin,Enhancer-like.

  接着根据主成分分析对染色质相关蛋白至进行聚类分析

聚类分析

  由图显示不同类别的染色质相关蛋白对不同的基因区域有偏好性。

RF

  为了验证这个发现,用随机森林机器学习方法,以染色质相关蛋白为特征预测增强子和启动子,其准确度达到80%

step2:进行模体分析操作,从而揭示染色质相关蛋白之间的关联。

 对171个转录因子中的160个转录因子从源头衍生的293个高置信度的motif集合,与Jaspar和CIS-BP数据库中的motif进行比较,发现相似度大于80%

 通过与数据库motif的比较将这293个motif分为三类

motif分类 motif的主成分分析

 对motif进行主成分分析,发现可以将落在启动子区和增强子区的motif区分开来。

随机森林预测

 接着仅用motif作为特征,预测启动子区和增强子区,发现仅用40个motif准确率也可达到80%

step3:已知的染色质相关蛋白和新发现的染色质相关蛋白之间的关联。

聚类分析1 聚类分析2

通过以上聚类分析发现众多已知以及新的蛋白相互作用介导基因表达。

四、讨论

上一篇下一篇

猜你喜欢

热点阅读