chip-seq信息分析
6、找到peak基因,
7、这些peak有什么特点
对全基因组进行peak的查找,图peak finding
summit:peak的最高峰,位于length的中间位置
tags:有多少条reads存在在这个peak中
p值转换,p越小,组蛋白或者转录因子在这个序列上结合的概率越大
最后一列是peak区域的reads数是非peak区域的几倍
annotation是指这个peak位于这个NM_172362的intron上面
entrez id:与其相关的基因id
annatation将其分类画图
pvalue:找到这个motif的可能性,越小可能性越高
倒数第二列:我们的peak区域有65%都存在这个motif
最后一列:背景:非peak区域中找motif,大概有6.2%区域存在motif
找到peak基因后就可以做GO分析
图1
1、软件(命令)
4 、去接头
5、去n含量高于5%,自己写的程序
6、q20>70%,若报错打分矩阵不同,加-33
得到clean data
12、建索引
14、-x:索引路径 / 索引头文件
得到sam文件
与bam文件相比,bam文件相当于压缩了sam文件,所以bam文件的打开需要samtools,而sam文件只是一个文本文件,直接用less就可以打开
图2
前面是头文件,第一列是reads编号
第二列:打分总值,比对到正链
3、4比对到染色体的什么位置
5、打分;越高越好,,是unique的概率越大,比对质量越好
6、42M,有42个碱基匹配上了
其余的同bam
XS:i比对的时候没有唯一比对,要去掉
15、排除掉XS:i比对的时候没有唯一比对的
看bam文件
-h:加头文件
-SN:对齐
call peak
macs软件
-t 实验组,如果有两个样品,直接,添加即可
-c 对照组control
23、-c可去掉,只会根据实验组的找peak 23
-f 输入文件的类型
-g 染色体选择的一个物种(模式物种)或者一个长度(对于非模式物种,2e6=2M
-n:输出一大堆结果的一个头文件,自己命名,输出结果都是sample开头的文件,sample_peaks.bed(输入的peak结果的bed文件)sample_peaks.xls(peak的excel文件,前面peak文件的注释,=peak finding的那个,最后一列为FDR值,若peak很多,可以根据这个在过滤一些)sample——summits.bed文件:每个peak的最高峰
sample_negative_peaks.xls:与xls相反,实验组与对照组翻一下在22行-t -c中
sample_model.r:直接rscripe运行得到pdf
根据sample_peaks.xls可做一个柱状图,看长度分布
sample_peaks.xls
hist.R
6、breaks,将这1000分为多少个矩形
-p 输出结果的过滤文件 p < 10的 -5 次方才输出
-w / -B 输出的结果文件的类型bed文件 ,会有很多bdg文件
R包如何实现可视化
6、7、8在.xls文件中查看,要看哪个
9、10treat、control的bdg文件绝对路径
对哪个区域感兴趣去画一个哪个区域的可视化
格式化处理12-29
peak注释homer(查找motif)
-list:找出需要安装的物种
-install hg19
35、四个依赖软件。也要进行安装
36、将sample_peaks.bed转化为sample_homer.bed,homer的输入
homer的输入格式
sample_peaks.bed
38、motif查找生成两个文件knowmotif(会根据数据库里已知的基序在peak里查找)、homermotif(直接从peak里找(STD变异,倒数第二行motif的一个注释,最好的一个match
homermotif
knowmotif
39、peak注释 1:输出结果 .xls 2:报错的logo文件
peak注释结果
有了peak相关基因即可后续做具体研究,比如注释为promoter的基因
40、想做一个peak在intergenic中有多少,在intron中有多少,做一个统计
统计结果
可以将统计结果画一个饼图
pie.R
rscript 。。。.R运行一下就可以
后续可以在做GO、KEGG分析,但是homer中也可以在做这两个分析
只需要将39换成现在的40
目录GODIR中就会包含共go、kegg的结果