生信

记录NCBI下载基因组的大坑

2021-08-13  本文已影响0人  老饕_Ljw

写在前面


一、在基因组文献中找到参考基因组及注释的存储路径


如图可知该基因组存储在ncbi上,也给出了BioProject Number。注释文件存储在另外一个网站,似乎类似于FTP,直接下载即可,并没有太大问题。

二、NCBI下载基因组与注释文件(开始踩坑)

根据给出的BioProject Number,直接在NCBI上进入物种基因组下载界面,并点击下载



在NCBI上,一般能够下载到某物种的基因组文件及其对应的注释文件。但是我要下的该物种似乎确实没有将注释文件一并上传到NCBI上。因此直接去文章中给出的链接下载。


得到基因组与注释文件之后,使用TBtools提取CDS序列一直提不出来,非常奇怪。


一般来说遇到这种情况,基本上都是用户操作不当或者文件有问题。因此直接查一下文件的完整性。
使用TBtools的File MD5 Sum功能计算下载的基因组的MD5,发现文件完整度没问题。


提不出CDS序列,输出的是空文件。也许是GFF3文件哪里有问题。检查了一下,发现似乎也没异常,该有的信息都有,除了基因ID长得比较奇怪。。。而且TBtools也能够成功提取该GFF3文件的信息,



顺道看了一眼参考基因组内容,惊呆了。。。问题竟然出现在染色体ID上,应该是NCBI默认给染色体ID更改过了名字,导致参考基因组中的染色体ID与GFF3中的染色体ID不一致。虽然信息很全,但是并没有啥用,甚至还会导致一系列报错。。

fine,既然找到了原因,那么只需要写个命令将基因组中的染色体名称改成与GFF3中一致即可

三、关于下载参考基因组

  1. 我觉得下载参考基因组首先还是要直接看基因组文章里面DATA AVAILABILITY部分,是否有给出基因组及其注释文件的下载链接或者存储网站,直接访问下载,往往会比较靠谱。
  2. 网上搜索是否有所需物种相应的基因组数据库
  3. 权威的综合数据库,如Ensembl、Phytozome等等。

最后,关于Ensembl ID
通常Symbol是我们更愿意看到的ID,即基因的官方名称,如GFAP、MYB等,便于我们直观的知道这是个什么基因,但是在数据分析的过程中,基因ID往往不会直接以Symbol的形式出现,这个时候可以借助转换工具来对其进行转换,如Y叔的clusterProfiler,或者直接在Ensembl网站上转换等。

Ensembl ID的含义,如ENSSSCG00000037372


写在最后

近期状态似乎还不错,虽然通勤真的很累,特别是要挤早高峰和晚高峰的广州死亡3号线。。。
嗯。。愿天下打工人都不用通勤

上一篇下一篇

猜你喜欢

热点阅读