数据库生信SCI写作指南

NAR2019数据库总结——GeneShot 基因研究程度查询

2019-07-13  本文已影响6人  drlee_fc74

和一个疾病相关的基因有很多,基因研究的频率和之前的研究结果有很大的关系。这也导致了对于疾病相关基因的研究主要集中在以前广泛研究的一些基因上。进而造成了一起一些重要的基因没有得到研究。GeneShot旨在发现广泛研究的基因。

image.png

数据库原理

数据库主要是通过两个方面来对基因进行分析的,

  1. 基因发表的频率:数据库分析基因和文章发表的关系是基于ncbi当中的GeneRIF或者AutoRIF数据库的。GeneRIF 数据库及基于文章的摘要来总结的疾病和基因之间的关系的。最近的GeneRIF数据可以在这里下载AutoRIF数据库是作者自己基于GeneRIFz总结的数据。其中的数据量要比GeneRIF数据量要大。所以结果可能也更加的准确一些。但是呢,这个也要看数据库更不更新。如果数据库不更新的话,可能以后还是原始的GeneRIF好一些。

  2. 基因和其他基因的共表达关系。这个数据库通过五个个数据库来分析基因之间的相似性。其中包括刚才介绍的GeneRIFAutoRIF。其他的三个分别是Enrichr富集分析数据库。Tagger文献发表的在摘要当中的共存数据库。ARCHS4RNA-seq共表达数据库。

数据库总共包括三个可以检索的部分。分别是

PubMed Query

这个部分我们可以输入自己想要检索的关键词,同时如果有想要排除的也可以在排除的地方选择。对于背景数据库的选择可以选择GeneRIFAutoRIF

image.png

检索结果包括两个部分。

  1. 检索到的目标基因文章数和总文章数的散点图的统计。我们可以点击每个点观察不同的基因的变化。
image.png
  1. 相关基因在不同共表达数据库当中的相互作用。其中包括两个部分。一个是上述散点图具体的表格。另外一个是基因之间相互作用的评分。我们点击Score可以看到相互作用的基因。同时的,数据库也提供了 下载所有数据的地方。
image.png

Gene Function Prediction

通过过表达数据库检索目标基因的共表达基因。同时根据共表达基因和目标数据库进行匹配。这个数据库可以检索的背景数据库包括HPO; KEGG等12个数据库可以进行选择

image.png

基因的功能最后可以绘制出ROC曲线。ROC曲线中每个点代表富集到的结果。其中在数据库中目前存在的基因是真性预测值。基于此来得到ROC曲线。用于次我们可以在现在数据库的基础上得到新的结果。

image.png

Gene Set Augmentation

输入一系列的基因。得到不同基因的研究程度。各个基因的研究程度可以分成rare; uncommon; common; very common四种。

image.png

结果当中,首先我们可以得到的就是这些基因的简单统计

image.png

同时可以得到这些基因的发表文章的数据以及预测到的相互作用的基因。

image.png

下载

数据库提供了下载的功能。关于数据库用到的GeneRIF; AUTORIF等内置的数据集都可以下载下来。

image.png

另外也提供了网站的API。方便进行自己的批量查询。

PS:由于数据库都是建立好的。如果这个数据库不经常更新的话。其中的背景数据肯定会过时。建议还是可以使用NCBI定期更新的GeneRIF吧。

上一篇下一篇

猜你喜欢

热点阅读