生物信息学数据分析

chip-seq信息分析

2020-08-07 本文已影响0人 jiarf

6、找到peak基因，

7、这些peak有什么特点

对全基因组进行peak的查找，图peak finding

summit：peak的最高峰，位于length的中间位置

tags：有多少条reads存在在这个peak中

p值转换，p越小，组蛋白或者转录因子在这个序列上结合的概率越大

最后一列是peak区域的reads数是非peak区域的几倍

annotation是指这个peak位于这个NM_172362的intron上面

entrez id：与其相关的基因id

annatation将其分类画图

pvalue：找到这个motif的可能性，越小可能性越高

倒数第二列：我们的peak区域有65%都存在这个motif

最后一列：背景：非peak区域中找motif，大概有6.2%区域存在motif

找到peak基因后就可以做GO分析

图1

1、软件（命令）

4 、去接头

5、去n含量高于5%，自己写的程序

6、q20>70%，若报错打分矩阵不同，加-33

得到clean data

12、建索引

14、-x：索引路径 / 索引头文件

得到sam文件

与bam文件相比，bam文件相当于压缩了sam文件，所以bam文件的打开需要samtools，而sam文件只是一个文本文件，直接用less就可以打开

图2

前面是头文件，第一列是reads编号

第二列：打分总值，比对到正链

3、4比对到染色体的什么位置

5、打分；越高越好，，是unique的概率越大，比对质量越好

6、42M，有42个碱基匹配上了

其余的同bam

XS:i比对的时候没有唯一比对，要去掉

15、排除掉XS:i比对的时候没有唯一比对的

看bam文件

-h：加头文件

-SN：对齐

call peak

macs软件

-t 实验组，如果有两个样品，直接，添加即可

-c 对照组control

23、-c可去掉，只会根据实验组的找peak 23

-f 输入文件的类型

-g 染色体选择的一个物种（模式物种）或者一个长度（对于非模式物种，2e6=2M

-n：输出一大堆结果的一个头文件，自己命名，输出结果都是sample开头的文件，sample_peaks.bed(输入的peak结果的bed文件）sample_peaks.xls（peak的excel文件，前面peak文件的注释，=peak finding的那个，最后一列为FDR值，若peak很多，可以根据这个在过滤一些）sample——summits.bed文件：每个peak的最高峰

sample_negative_peaks.xls:与xls相反，实验组与对照组翻一下在22行-t -c中

sample_model.r：直接rscripe运行得到pdf

根据sample_peaks.xls可做一个柱状图，看长度分布

sample_peaks.xls

hist.R

6、breaks，将这1000分为多少个矩形

-p 输出结果的过滤文件 p < 10的 -5 次方才输出

-w / -B 输出的结果文件的类型bed文件，会有很多bdg文件

R包如何实现可视化

6、7、8在.xls文件中查看，要看哪个

9、10treat、control的bdg文件绝对路径

对哪个区域感兴趣去画一个哪个区域的可视化

格式化处理12-29

peak注释homer（查找motif）

-list：找出需要安装的物种

-install hg19

35、四个依赖软件。也要进行安装

36、将sample_peaks.bed转化为sample_homer.bed，homer的输入

homer的输入格式

sample_peaks.bed

38、motif查找生成两个文件knowmotif（会根据数据库里已知的基序在peak里查找）、homermotif（直接从peak里找（STD变异，倒数第二行motif的一个注释，最好的一个match

homermotif

knowmotif

39、peak注释 1：输出结果 .xls 2：报错的logo文件

peak注释结果

有了peak相关基因即可后续做具体研究，比如注释为promoter的基因

40、想做一个peak在intergenic中有多少，在intron中有多少，做一个统计

统计结果

可以将统计结果画一个饼图

pie.R

rscript 。。。.R运行一下就可以

后续可以在做GO、KEGG分析，但是homer中也可以在做这两个分析

只需要将39换成现在的40

目录GODIR中就会包含共go、kegg的结果

上一篇下一篇

猜你喜欢

热点阅读