bedgraph, wig, bigwig 学习之bedGrap
2018-12-22 本文已影响87人
liu_ll
一:前言
最近师兄给我布置了一个小任务:把bedgraph文件转成bigwig形式,然后拖到IGV里去看看。
原因:由于bedgraph 的文件比较大,可以转成比较小的文件才方便进行操作。比如说bigwig.(小问题:为什么bigwig而不是wig捏?)
bedgraph, wig, bigwig的格式了解一下???
1:bedgraph 主要是来源于bed文件,包含了bed文件的信息.
UCSC bedgraph的 解释重点: bedgraph文件里面得包含4种信息
举一个栗子。打开一个bedgraph的文件:能看到很多信息
bedgraph示例bedgarph文件记录的信息由以下几个部分组成:
chr start position end position value
染色体 起始位置 终止位置 值
bedgraph 文件包含了trak信息,以及value值(如果是负数的话可能是副链上的值的信息)
2:关于bed文件
BED文件 要求的最基本的是染色体信息,起始位置,终止位置。
如果要记录的更加详细的话可以有后面的选项
bed文件的说明,来自emble
3:wig文件信息
包括了染色体的长度,步长是多少,span是多少。(有多少个一样的位点的value是多少个,方便压缩信息)
wig的基本信息
4:bigwig
bigwig是wig文件的二进制形式,为了压缩文件大小的
但是为了建立这个二进制的形式,是必须要提供参考基因组大小的也就是chromsize的文件信息的
5:报错信息
这个报错信息说,我的bedgraph的区域有超区的现象
代码看红框框里的:
代码信息
这里要求必须得有chromsize的文件信息!!!!
思考:我们可以根绝bedgraph信息直接算出来bigwig的信息,但是为什么要chromsize的文件呢?
感谢小伙伴的指点@UnderStorm
, 在这个步骤中,它是先转成wig文件,再根据wig文件再转成bigwig文件进行压缩。
回到刚才的问题:
既然存在的超区的问题,我回去检查了一下bgh的文件信息,根据报错的那一栏,发现bedgraph那一行的信息不准确。
Reference:
UCSC的bedgraph说明文档 http://www.genome.ucsc.edu/goldenPath/help/bedgraph.html
ensembl 的说明文档 http://asia.ensembl.org/info/website/upload/bed.html
生信技能树wig、bigWig和bedgraph文件详解 http://www.bio-info-trainee.com/1815.html