NAR2019数据库总结——GeneShot 基因研究程度查询
image.png和一个疾病相关的基因有很多,基因研究的频率和之前的研究结果有很大的关系。这也导致了对于疾病相关基因的研究主要集中在以前广泛研究的一些基因上。进而造成了一起一些重要的基因没有得到研究。GeneShot旨在发现广泛研究的基因。
数据库原理
数据库主要是通过两个方面来对基因进行分析的,
-
基因发表的频率:数据库分析基因和文章发表的关系是基于ncbi当中的
GeneRIF或者AutoRIF
数据库的。GeneRIF 数据库及基于文章的摘要来总结的疾病和基因之间的关系的。最近的GeneRIF
数据可以在这里下载。AutoRIF
数据库是作者自己基于GeneRIF
z总结的数据。其中的数据量要比GeneRIF
数据量要大。所以结果可能也更加的准确一些。但是呢,这个也要看数据库更不更新。如果数据库不更新的话,可能以后还是原始的GeneRIF
好一些。 -
基因和其他基因的共表达关系。这个数据库通过五个个数据库来分析基因之间的相似性。其中包括刚才介绍的
GeneRIF
和AutoRIF
。其他的三个分别是Enrichr
富集分析数据库。Tagger
文献发表的在摘要当中的共存数据库。ARCHS4
RNA-seq共表达数据库。
数据库总共包括三个可以检索的部分。分别是
- PubMed Query :通过检索某一个关键词,来得到和这个关键词相关的所有基因。
- Gene Function Prediction:输入基因名,通过基于通路数据库和共表达数据库对目标基因进行功能预测。
- Gene Set Augmentation:输入一系列的基因名,评估基因的研究程度以及相互作用。
PubMed Query
这个部分我们可以输入自己想要检索的关键词,同时如果有想要排除的也可以在排除的地方选择。对于背景数据库的选择可以选择GeneRIF
和AutoRIF
。
检索结果包括两个部分。
- 检索到的目标基因文章数和总文章数的散点图的统计。我们可以点击每个点观察不同的基因的变化。
- 相关基因在不同共表达数据库当中的相互作用。其中包括两个部分。一个是上述散点图具体的表格。另外一个是基因之间相互作用的评分。我们点击
Score
可以看到相互作用的基因。同时的,数据库也提供了 下载所有数据的地方。
Gene Function Prediction
通过过表达数据库检索目标基因的共表达基因。同时根据共表达基因和目标数据库进行匹配。这个数据库可以检索的背景数据库包括HPO
; KEGG
等12个数据库可以进行选择
基因的功能最后可以绘制出ROC曲线。ROC曲线中每个点代表富集到的结果。其中在数据库中目前存在的基因是真性预测值。基于此来得到ROC曲线。用于次我们可以在现在数据库的基础上得到新的结果。
image.pngGene Set Augmentation
输入一系列的基因。得到不同基因的研究程度。各个基因的研究程度可以分成rare
; uncommon
; common
; very common
四种。
结果当中,首先我们可以得到的就是这些基因的简单统计
image.png同时可以得到这些基因的发表文章的数据以及预测到的相互作用的基因。
image.png下载
数据库提供了下载的功能。关于数据库用到的GeneRIF
; AUTORIF
等内置的数据集都可以下载下来。
另外也提供了网站的API。方便进行自己的批量查询。
PS:由于数据库都是建立好的。如果这个数据库不经常更新的话。其中的背景数据肯定会过时。建议还是可以使用NCBI定期更新的GeneRIF
吧。