NAD-seq生信

IGV 导入本地基因组及注释文件

2022-04-24  本文已影响0人  小黑黑黑黑

IGV 软件有 自带的基因组文件和注释文件 ,使用自带的还是方便一些。但是,其使用的注释文件和基因组文件可能与我们数据分析时的不一致,这时候我们可视化 bigwig 文件或者 bam 文件时可能就有问题了。其次, 基因组更新是比较慢 的,但是 注释文件更新的很快 ,越来越多的新基因被鉴定出来,添加到注释文件里,注释文件就会有越来越多的新版本。推荐使用对应基因组版本的最新注释文件,这样得到的信息会更全一些。

IGV 导入本地基因组及注释文件 (qq.com):微信公众号:老俊俊的生信笔记

IGV进阶笔记 (qq.com):微信公众号:生信小知识

联川生物:论文缺一张IGV峰型图?就这样画!

转录组入门4-参考基因组、注释文件下载及IGV - 知乎 (zhihu.com)

有时候用自己下载的 GTF 文件去定量后,在 IGV 里却找不到这个基因,这就是注释文件差异的问题。IGV 使用的注释文件好像时 UCSC 数据库的,所以载入自己的 GTF 文件才会准确一点。



一:下载基因组和注释文件

注释文件gtf/gff都可以

下载之后解压

二:导入到igv

(1)igv里面直接对参考基因组进行构建索引

 IGV 工具栏,tools-Run igvtools;选择index

(2)igv里面给注释文件排序,构建索引

也可以不自己排序构建,即省略这一步(此步错误,一定要排序)

IGV 工具栏,tools-Run igvtools;选择sort;输入注释文件;生成sort;

接着,IGV 工具栏,tools-Run igvtools;选择index;输入刚刚的sort文件;生成index;

三:导入文件

 IGV 里导入基因组文件和排序好的 GTF 文件 (也可以是下载好的原始注释文件,igv会自己构建索引),一定要先导入基因组文件! !!

(1)参考基因组

IGV 工具栏,Genomes → load genome from

或者Genomes → Create genome File :

(2)gff/gtf注释文件

File → Load from File→找到注释文件即可(该步错误)

或者刚刚建立好索引的sort文件(不知道是不是gff的原因,导入该文件后显示如下图1,所以我直接输入了未经排序构建索引的注释文件,如图2)

图1 图2

这样做的好处是:

我们可以准确的查看比对后的结果文件,以及比对后转换的各种其他格式文件

这样做的不足是:

没有办法直接根据基因名进行搜索,没有直接用IGV自带的基因组文件方便

四:导出基因名和位置信息

如果我们使用 IGV 自带的注释文件,我们是可以根据基因名进行搜索的,但是加载自己的注释文件则不可以,只能根据位置进行查找,所以做一个含有基因名和位置信息的文件方便我们查找:

查看有多少个基因:

$ less -S Mus_musculus.GRCm39.104.sorted.gtf | grep -w "gene" |wc -l55416

查看有多少个基因:

$ less -S Mus_musculus.GRCm39.104.sorted.gtf \  | grep -w "gene" \  |awk '{print "chr"$1"\t"$4"\t"$5"\t"$14}' \  |sed 's/["|;]//g' \  > gene.info.xls

结果:

我们直接在 excel 里搜到感兴趣基因,然后复制前 3 列到 IGV 里直接查找回车就行了:

另一种办法:其实不同数据库的基因组版本基本是一样的,我们关注的主要是注释文件的差异,所以我们 默认使用 IGV 软件自带的基因组和注释文件 ,然后导入自己的 GTF 注释文件就行了:

先加载igv自带,然后File → Load from File→sort文件

上一篇下一篇

猜你喜欢

热点阅读