hallmark gene sets 是什么

2025-02-07  本文已影响0人  MYS_bio_man

O、Hallmark Gene Sets(标志基因集)详解


1. 定义与背景

Hallmark Gene Sets 是一组精心筛选的基因集合,每个集合代表一种特定的生物学过程、功能或疾病机制。例如,它们可能对应“细胞增殖”“炎症反应”或“DNA修复”等关键生物学活动。这些基因集由美国Broad研究所的团队在2015年开发,并集成在分子签名数据库(MSigDB)中,是生物信息学中常用的分析工具。

为什么需要它们?
在生物学研究中,科学家经常需要分析成千上万个基因在特定条件下的行为(如癌症 vs 正常组织)。直接分析单个基因犹如大海捞针,而通过预定义的基因集(如Hallmark),可以将基因按功能归类,简化分析过程。


2. 构建方法:如何提炼出“精华”?

Hallmark Gene Sets并非简单的文献汇总,而是通过以下步骤提炼而成:

最终,Hallmark集合从数千个原始基因集中提炼出约50个“精华”集合,每个都代表一个明确且无冗余的生物学主题。


3. 主要特点


4. 应用场景


5. 如何获取与使用?


6. 示例说明

HALLMARK_APOPTOSIS(细胞凋亡)为例:


7. 与其他基因集的对比


以下是Hallmark Gene Sets中50个基因集的详细分类、功能解读及典型应用场景(部分)。


一、Hallmark基因集的分类与核心功能

Hallmark的50个基因集可归纳为7大生物学主题,以下是每类的代表基因集及其作用:


1. 细胞增殖与死亡调控


2. 代谢与能量平衡


3. 免疫与炎症反应


4. 应激与损伤应答


5. 发育与分化


6. 信号通路与调控


7. 其他核心过程


二、如何获取完整列表与基因详情?

  1. MSigDB官网:访问 GSEA-MSigDB,搜索“Hallmark”可下载全部50个基因集的基因列表(需免费注册)。

  2. R/Python工具

    • R语言:通过msigdbr包直接调用(示例代码):
      library(msigdbr)
      hallmark <- msigdbr(species = "Homo sapiens", category = "H")
      View(hallmark)
      
    • Python:使用GSEApyBioMart查询。
  3. 文件格式:每个基因集以.gmt格式存储,包含基因名与功能描述。


三、实际分析中的选择建议


四、注意事项


掌握这50个基因集的功能,相当于获得了一张“生物学过程地图”,能快速定位实验数据中的关键机制。

上一篇 下一篇

猜你喜欢

热点阅读