生物信息学数据分析

chip-seq信息分析

2020-08-07  本文已影响0人  jiarf

6、找到peak基因,

7、这些peak有什么特点

对全基因组进行peak的查找,图peak finding

summit:peak的最高峰,位于length的中间位置

tags:有多少条reads存在在这个peak中

p值转换,p越小,组蛋白或者转录因子在这个序列上结合的概率越大

最后一列是peak区域的reads数是非peak区域的几倍

annotation是指这个peak位于这个NM_172362的intron上面

entrez id:与其相关的基因id

annatation将其分类画图

pvalue:找到这个motif的可能性,越小可能性越高

倒数第二列:我们的peak区域有65%都存在这个motif

最后一列:背景:非peak区域中找motif,大概有6.2%区域存在motif

找到peak基因后就可以做GO分析

图1

1、软件(命令)

4 、去接头

5、去n含量高于5%,自己写的程序

6、q20>70%,若报错打分矩阵不同,加-33

得到clean data

12、建索引

14、-x:索引路径 / 索引头文件

得到sam文件

与bam文件相比,bam文件相当于压缩了sam文件,所以bam文件的打开需要samtools,而sam文件只是一个文本文件,直接用less就可以打开

图2

前面是头文件,第一列是reads编号 

第二列:打分总值,比对到正链

3、4比对到染色体的什么位置

5、打分;越高越好,,是unique的概率越大,比对质量越好

6、42M,有42个碱基匹配上了

其余的同bam   

XS:i比对的时候没有唯一比对,要去掉

15、排除掉XS:i比对的时候没有唯一比对的

看bam文件

-h:加头文件

-SN:对齐

call peak

macs软件

-t  实验组,如果有两个样品,直接,添加即可

-c   对照组control

23、-c可去掉,只会根据实验组的找peak  23

-f  输入文件的类型

-g   染色体选择的一个物种(模式物种)或者一个长度(对于非模式物种,2e6=2M

-n:输出一大堆结果的一个头文件,自己命名,输出结果都是sample开头的文件,sample_peaks.bed(输入的peak结果的bed文件)sample_peaks.xls(peak的excel文件,前面peak文件的注释,=peak finding的那个,最后一列为FDR值,若peak很多,可以根据这个在过滤一些)sample——summits.bed文件:每个peak的最高峰

sample_negative_peaks.xls:与xls相反,实验组与对照组翻一下在22行-t  -c中

sample_model.r:直接rscripe运行得到pdf

根据sample_peaks.xls可做一个柱状图,看长度分布

sample_peaks.xls hist.R

6、breaks,将这1000分为多少个矩形

-p  输出结果的过滤文件 p < 10的 -5 次方才输出

-w / -B 输出的结果文件的类型bed文件 ,会有很多bdg文件

R包如何实现可视化

6、7、8在.xls文件中查看,要看哪个

9、10treat、control的bdg文件绝对路径

对哪个区域感兴趣去画一个哪个区域的可视化

格式化处理12-29

peak注释homer(查找motif)

-list:找出需要安装的物种

-install hg19

35、四个依赖软件。也要进行安装

36、将sample_peaks.bed转化为sample_homer.bed,homer的输入

homer的输入格式 sample_peaks.bed

38、motif查找生成两个文件knowmotif(会根据数据库里已知的基序在peak里查找)、homermotif(直接从peak里找(STD变异,倒数第二行motif的一个注释,最好的一个match

homermotif knowmotif

39、peak注释   1:输出结果 .xls  2:报错的logo文件  

peak注释结果

有了peak相关基因即可后续做具体研究,比如注释为promoter的基因

40、想做一个peak在intergenic中有多少,在intron中有多少,做一个统计

统计结果

可以将统计结果画一个饼图

pie.R

rscript  。。。.R运行一下就可以

后续可以在做GO、KEGG分析,但是homer中也可以在做这两个分析

只需要将39换成现在的40

目录GODIR中就会包含共go、kegg的结果

上一篇 下一篇

猜你喜欢

热点阅读