BED格式
BED 文件格式
Genome Browser FAQ
生物信息数据格式:bed格式
简介
bed文件一般代表基因组位置信息,采用起始坐标为0的坐标系
BED文件每行至少包括chrom,chromStart,chromEnd三列必选;另外还可以添加额外的9列可选,这些列的顺序是固定的。
可以自定义BED文件便于浏览器更好展示。但是,下游的一些分析工具如bedToBigBed不接受有注释的BED文件。
格式
必须的三列:
chrom - 染色体的名称(例如chr3,chrY,chr2_random或scaffold10671)。
chromStart- 染色体或支架中特征的起始位置,0-based。[)前闭后开区间
chromEnd- 染色体或支架中特征的结束位置。
9个可选的字段:
name - 定义BED行的名称。
score - 基因在注释数据集文件中的评分,得分在0到1000之间。在Genome Browser中评分越高灰度越高。
strand - 定义strand方向。“.” 或“+”或“ - ”
thickStart- feature的起始位置
When there is no thick part, thickStart and thickEnd are usually set to the chromStart position.
thickEnd - feature结束位置。
itemRgb- RGB值,方便在GenomeBrowser中查看。
blockCount- BED行中的外显子数。
blockSizes- 逗号分隔,数目与blockCount值对应,表示对应外显子的碱基数。
blockStart位置。逗号分割,表示对应外显子的起始位置(相对ChromStart)。
示例
browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0
chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0
chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0
chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255
chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255
chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255
chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0
chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
展示结果
与GTF区别
BED文件中起始坐标为0,一个区域用左闭右开区间表示; GFF中起始坐标是1,一个区域用闭区间表示。
处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。
其他类型
根据包含的列数 BED文件可以叫做BED 3/4/5/../12
bedGraph
和wiggle格式类似,bedGraph对各个区域给出了一个连续性数据(continuous-valued data),用于展示各个区域的表达量或对应的概率值。
例子:
chr19 49302000 49302300 -1.0
chr19 49302300 49302600 -0.75
chr19 49302600 49302900 -0.50
chr19 49302900 49303200 -0.25
chr19 49303200 49303500 0.0
chr19 49303500 49303800 0.25
chr19 49303800 49304100 0.50
chr19 49304100 49304400 0.75
chr19 49304400 49304700 1.00
bigBed
二进制压缩版的BED或bedgraph。使用bedToBigBed 和 bigBedToBed 互相转换