Sequence logo的字符含义
2022-11-10 本文已影响0人
可能性之兽


为了更准确地反映转录因子结合位点每个位置的特征,创建了一个位置频率矩阵,描述了在每个位置观察到的核苷酸数量。该频率矩阵通常被转换为位置权重矩阵 (PWM),其中归一化的频率值以对数刻度表示(这使得计算分析更有效)。给定转录因子的目标可以通过在局部或全基因组范围内筛选基因组 DNA 来预测局部序列与 PWM 匹配的区域。然而,这种方法没有解决相关转录因子识别中的任何冗余、染色质结构内序列的可及性或其他转录因子在上游或下游结合的贡献。
对于任何 DNA 序列,可以通过将结合基序的每个核苷酸的值相加来计算定量分数。这些分数与结合能大致成比例。在序列标识中,每个核苷酸的比例基于:
- (i) 核苷酸在各自位置的相对丰度
- (ii) 该位置对整个转录因子结合的相对重要性。
因此,sequence logos比 PWM 更适合和更直观地表示转录因子结合位点。比较大量蛋白质结合序列,例如通过从头基序发现从 ChIP-seq 数据确定的蛋白质结合序列,可以最可靠地描述转录因子结合位点。此外,同样的方法还可以揭示其他转录因子结合位点的存在,从而表明组合转录因子复合物。
其大小是依靠香农熵计算的
image.png