chip-seq信息分析
![](https://img.haomeiwen.com/i24181854/5456e7d360ef136d.png)
![](https://img.haomeiwen.com/i24181854/8106b09666281f3f.png)
6、找到peak基因,
7、这些peak有什么特点
![](https://img.haomeiwen.com/i24181854/54d4d54687bd0bb1.png)
summit:peak的最高峰,位于length的中间位置
tags:有多少条reads存在在这个peak中
p值转换,p越小,组蛋白或者转录因子在这个序列上结合的概率越大
最后一列是peak区域的reads数是非peak区域的几倍
![](https://img.haomeiwen.com/i24181854/0e7b1e3982066274.png)
![](https://img.haomeiwen.com/i24181854/5c8cb9b12ac3d886.png)
annotation是指这个peak位于这个NM_172362的intron上面
entrez id:与其相关的基因id
![](https://img.haomeiwen.com/i24181854/e8ec278db4c54d86.png)
![](https://img.haomeiwen.com/i24181854/b28df29ba2cb245e.png)
pvalue:找到这个motif的可能性,越小可能性越高
倒数第二列:我们的peak区域有65%都存在这个motif
最后一列:背景:非peak区域中找motif,大概有6.2%区域存在motif
找到peak基因后就可以做GO分析
![](https://img.haomeiwen.com/i24181854/79512f311640dbf8.png)
![](https://img.haomeiwen.com/i24181854/3ccbb11d05fdeda8.png)
1、软件(命令)
4 、去接头
5、去n含量高于5%,自己写的程序
6、q20>70%,若报错打分矩阵不同,加-33
得到clean data
12、建索引
14、-x:索引路径 / 索引头文件
得到sam文件
与bam文件相比,bam文件相当于压缩了sam文件,所以bam文件的打开需要samtools,而sam文件只是一个文本文件,直接用less就可以打开
![](https://img.haomeiwen.com/i24181854/46b0c563d9409b98.png)
前面是头文件,第一列是reads编号
第二列:打分总值,比对到正链
3、4比对到染色体的什么位置
5、打分;越高越好,,是unique的概率越大,比对质量越好
6、42M,有42个碱基匹配上了
其余的同bam
XS:i比对的时候没有唯一比对,要去掉
15、排除掉XS:i比对的时候没有唯一比对的
![](https://img.haomeiwen.com/i24181854/9102d7a21e26fddd.png)
-h:加头文件
-SN:对齐
call peak
macs软件
![](https://img.haomeiwen.com/i24181854/22cb0d7d1b134387.png)
-t 实验组,如果有两个样品,直接,添加即可
-c 对照组control
23、-c可去掉,只会根据实验组的找peak 23
-f 输入文件的类型
-g 染色体选择的一个物种(模式物种)或者一个长度(对于非模式物种,2e6=2M
-n:输出一大堆结果的一个头文件,自己命名,输出结果都是sample开头的文件,sample_peaks.bed(输入的peak结果的bed文件)sample_peaks.xls(peak的excel文件,前面peak文件的注释,=peak finding的那个,最后一列为FDR值,若peak很多,可以根据这个在过滤一些)sample——summits.bed文件:每个peak的最高峰
sample_negative_peaks.xls:与xls相反,实验组与对照组翻一下在22行-t -c中
sample_model.r:直接rscripe运行得到pdf
![](https://img.haomeiwen.com/i24181854/5ebb57ac2a7c0c27.png)
根据sample_peaks.xls可做一个柱状图,看长度分布
![](https://img.haomeiwen.com/i24181854/f32eb239c7e6f6bb.png)
![](https://img.haomeiwen.com/i24181854/19ae7329ce38c1d6.png)
6、breaks,将这1000分为多少个矩形
-p 输出结果的过滤文件 p < 10的 -5 次方才输出
-w / -B 输出的结果文件的类型bed文件 ,会有很多bdg文件
R包如何实现可视化
![](https://img.haomeiwen.com/i24181854/4eb4d3064f05a2fb.png)
6、7、8在.xls文件中查看,要看哪个
9、10treat、control的bdg文件绝对路径
对哪个区域感兴趣去画一个哪个区域的可视化
格式化处理12-29
peak注释homer(查找motif)
![](https://img.haomeiwen.com/i24181854/fb00609e0b99d84a.png)
-list:找出需要安装的物种
-install hg19
35、四个依赖软件。也要进行安装
36、将sample_peaks.bed转化为sample_homer.bed,homer的输入
![](https://img.haomeiwen.com/i24181854/52a9552b3e6434f9.png)
![](https://img.haomeiwen.com/i24181854/494e47ca4d27a085.png)
38、motif查找生成两个文件knowmotif(会根据数据库里已知的基序在peak里查找)、homermotif(直接从peak里找(STD变异,倒数第二行motif的一个注释,最好的一个match
![](https://img.haomeiwen.com/i24181854/2d4d53a669ece7c5.png)
![](https://img.haomeiwen.com/i24181854/3c6aa187280408e0.png)
39、peak注释 1:输出结果 .xls 2:报错的logo文件
![](https://img.haomeiwen.com/i24181854/1e06db48803cc1d4.png)
有了peak相关基因即可后续做具体研究,比如注释为promoter的基因
![](https://img.haomeiwen.com/i24181854/888e4ed24563012a.png)
40、想做一个peak在intergenic中有多少,在intron中有多少,做一个统计
![](https://img.haomeiwen.com/i24181854/bf3d6832c7549e7e.png)
可以将统计结果画一个饼图
![](https://img.haomeiwen.com/i24181854/2091c15f76ba3cfe.png)
rscript 。。。.R运行一下就可以
![](https://img.haomeiwen.com/i24181854/072ec7ea994115b0.png)
后续可以在做GO、KEGG分析,但是homer中也可以在做这两个分析
只需要将39换成现在的40
![](https://img.haomeiwen.com/i24181854/86fdc20518f38fd3.png)
目录GODIR中就会包含共go、kegg的结果