生物信息杂谈生物信息学与算法生物信息学习

Motif 分析(2) - HOMER Motif 分析基本步骤

2019-03-24  本文已影响14人  JeremyL
HOMER

在基因组调控元件分析中,HOMER 可以用于发现新的motif。HOMER 通过比较两个序列集,再使用ZOOPS scoring (zero or one occurrence per sequence)和超几何检验进行富集分析。HOMER主要被用于 ChIP-Seq 和 promoter 分析,但是核酸序列motif寻找问题都可以尝试使用HOMER。

HOMER预测Motif 需要的两个序列集

  1. 感兴趣的目标序列。例如Chipseq实验发现的peaks。
  2. 背景序列集。HOMER 分析结果也会根据背景基因集的选择不同而变化。

HOMER 分析基本步骤:
1. 预处理
1.1 提取序列 (findMotifs.pl/findMotifsGenome.pl)
提供的数据是基因组位置信息,就需要提取对应的DNA信息;提供基因号时,需要选择启动子区域。

1.2 背景选择 (findMotifs.pl/findMotifsGenome.pl)
未指定背景序列时,HOMER 会自动选择。
对基因组某些区域进行分析时,从基因组随机选择GC含量一致的序列作为背景序列。
对启动子进行分析时,除用来分析外的所有启动子将被作为背景。
自定义背景使用参数"-bg <file>"。

1.3 GC 标准化 (findMotifs.pl/findMotifsGenome.pl)
目标序列和背景序列会基于GC含量按5%作为bin 查看GC含量的分布。背景序列会得到权值,从而使得其GC含量分布与目标序列一致。
ChIP-Seq 实验得到序列GC含量。

GC bins HOMER

1.4 自动标准化 (New with v3.0, homer2/findMotifs.pl/findMotifsGenome.pl)
需要分析的序列除了GC含量会带来误差,其他的生物学现象,外显子中密码子偏好性或测序实验中偏好性都会影响分析。对于足够强的偏差,HOMER 会自动追踪目标序列和背景中显著差异的特征序列,并通过调整背景序列的权重来平衡输入数据和背景中短寡聚核酸序列不平衡。短寡聚核酸序列长度可以通过参数"-nlen <#>"指定。

autonormalization example

2. 重头预测Motifs (homer2)
默认情况下,HOMER 调用homer2 进行motif 分析;通过参数"-homer1" 可以指定老版本工具。

2.1 将输入序列解析为寡聚核苷酸序列
将输入序列按照motif 长度期望值解析为寡聚核苷酸序列,以及创建Oligo 数据表。Oligo 数据表中记录着每条oligo 在目标序列和背景中被发现的次数。

2.2 Oligo 自动标准化 (可选)
2.3 全局搜索阶段
Oligo 表格信息构建好之后,HOMER 对富集的Oligo 进行全局搜索。如果一个Motif是富集的,那么属于这个Motif的Oligo 也应该会富集。首先,HOMER 会搜索可能富集的Oligo 。HOMER 允许错配 ,使用参数"-mis <#>" 调节允许的错配数目。

2.3.1 Motif 富集分析
Motif 富集分析使用超几何分布和二项式分布。一般情况下,序列较多或者背景序列远远多于目标序列,二项式分布计算比较快,因此findMotifsGenome.pl默认使用二项式分布;当自定义背景序列时,这时序列较少,使用超几何检验比较好("-h")。findMotifs.pl用于启动子分析,并且默认使用超几何检验。

2.4 矩阵优化
2.5 Mask and Repeat
当最优oligo被优化成motif后,motif 对应的序列从要分析的数据中移除,接下来再分析最优的.....直到 25(默认值,"-S <#>")个motifs 被发现。

3. 计算已知Motifs是否富集 (homer2)
3.1 导入Motif库
为了搜索输入数据中已知Motifs ,HOMER 可以输入已知Motifs 数据,可以时HOMER 默认的 ("data/knownTFs/known.motifs"),也可以是自己构建("-mknown <file>") 。

3.2 筛选每一个Motif
对于每个motif,HOMER 计算丰度(包含motif的序列/background sequences), ZOOPS (zero or one occurence per sequence)计数以及使用超几何检验或二项式计算显著性。

4. Motif 分析结果
4.1 Motif Files (homer2, findMotifs.pl, findMotifsGenome.pl)
".motif"包含motifs的信息
"
.motif"文件格式:

>ASTTCCTCTT     1-ASTTCCTCTT    8.059752        -23791.535714   0       T:17311.0(44 ...
0.726   0.002   0.170   0.103
0.002   0.494   0.354   0.151
0.016   0.017   0.014   0.954
0.005   0.006   0.027   0.963
0.002   0.995   0.002   0.002
0.002   0.989   0.008   0.002
0.004   0.311   0.148   0.538
0.002   0.757   0.233   0.009
0.276   0.153   0.030   0.542
0.189   0.214   0.055   0.543

一个motif 的信息分为一块。motif 信息首行是motif 各种统计信息;其他行对应各个A/C/G/T的占比。
motif 信息首行解析:

  1. ">" + 序列 (可能是空白) example: >ASTTCCTCTT
  2. Motif 名字 example: 1-ASTTCCTCTT or NFkB
  3. 检测阈值对数值 example: 8.059752
  4. 富集P-value对数值 example: -23791.535714
  5. 0 用于老版本格式的占位符
  6. T:17311.0(44.36%),B:2181.5(5.80%),P:1e-10317
    1. T:#(%) - 包含motif的目标数据序列数除以目标数据序列总数
    2. B:#(%) - 包含motif的背景序列数除以背景序列总数
    3. P:# - 富集 p-value
  7. Motif statistics separated by commas, example: Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
    1. Tpos: average position of motif in target sequences (0 = start of sequences)
    2. Tstd: standard deviation of position in target sequences
    3. Bpos: average position of motif in background sequences (0 = start of sequences)
    4. Bstd: standard deviation of position in background sequences
    5. StrandBias: log ratio of + strand occurrences to - strand occurrences.
    6. Multiplicity: The averge number of occurrences per sequence in sequences with 1 or more binding site.

4.2 重头预测的 motif (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)
首先会对motif进行去冗余,将每个motif 的概率矩阵转换为向量,求motif之间的Pearson 相关性。
HTML 结果:

motifs.denovoOutput.png
表格中,Best Match/Details项中:
More Information:与预测的motif相似的的已知motifs
Similar Motifs Found:与预测的motif相似的的其它预测motifs

4.2 已知 motif 的富集情况

motifs.known.png
上一篇下一篇

猜你喜欢

热点阅读