基因组坐标区间操作生命科学-简书专题生信分析流程

BED文件以及如何正确的从UCSC下载BED文件

2019-04-07  本文已影响102人  黄晶_id

在画chip-seq里最基础的两张图的时候,出现了报错,报错信息各种看不懂呀,去网上各种搜也没有解决。后来请教健明老师,困扰我两天的难题他一眼就看出来是我bed文件出现了问题,就是说我从UCSC下载的bed文件是不对的。我就拿这个我以为的bed文件去查看TSS附近信号强度,最后结果当然是各种报错。犯这么蠢的错,归其原因是我不了解bed文件格式。

在做chipseq中下面这两张图的时候,用到deeptools软件里的computeMatrix命令,需要给一个参考的注释文件(就是我们这里介绍的bed文件),从而让软件查看样本在TSS(转录起始位点)附近是否有富集。

chipseq中最基础的两张图
看下到底哪一步用到了bed文件
哪里用到bed文件解释

BED文件介绍

BED (Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息
注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。之后我们介绍如何从UCSC上下载bed文件。

先简单了解下UCSC:
UCSC是生物领域里常用的数据库之一,由University of California Santa Cruz (UCSC)创立和维护,主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。UCSC里也包括了一系列的分析工具,帮助用户浏览基因信息、查看已有基因组注释信息和下载基因序列等。

基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。

Bed文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。BED文件中起始坐标为0,结束坐标至少是1。

BED文件每行至少包括chrom,chromStart,chromEnd三列必选;另外还可以添加额外的9列可选,这些列的顺序是固定的。

必选的三列:

特别注意:bed文件坐标为一半开半闭区间[start, end),所以如果是[10,20),实际上只提取了10,11,...19 这十个位点,对应ucsc上的即为染色体坐标的10-19位碱基。ucsc上染色体坐标也是从0开始。

例如有一fasta格式的文件
chr1
TCGAGA

对应bed文件的坐标应为
chrome start end
chr1 0 5

用bedtools提取 CGAG 中间四个碱基,所需的bed输入文件应为[1,5)
chrome start end
chr1 1 5

9个可选的BED字段:

官方介绍bed文件地址:http://genome.ucsc.edu/FAQ/FAQformat.html#format1

官网介绍

如何从UCSC正确的下载BED文件

参考jimmy老师的博客:http://www.bio-info-trainee.com/2494.html

点击Get output之后会给我们一个选择输出形式的对话框,在Create one BED record per下面有一些选项,比如这里默认是Whole Gene,当然我们也可以选择启动子区域、外显子加周边区域、5' UTR区域、3' UTR区域等生成我们想要的BED文件。



到这里我们需要的bed文件就下载好了。


UCSC除了可以提供种类繁多的单一数据库下载外,还可以下载交叉数据库。

比如我们要在此次人类参考基因组下载的基础上,下载一个人类参考基因组和lincRNA数据库交叉的数据库,如图,点击intersection的create进入。


我们同样需要在Gene and Gene Predictions里找到lincRNA RNA-Seq数据库,最后点击submit。


后续的事情和下载单一数据库一样,到这里我们就成功下载两种数据库的交叉数据库了。

上一篇下一篇

猜你喜欢

热点阅读