SeuratData内置数据集的安装使用
SeuratData
SeuratData是一种使用R的内部软件包和数据管理系统以Seurat对象形式分发数据集的机制。它为用户提供了一种访问Seurat小插曲中使用的数据集的简便方法。
安装
SeuratData的安装可以通过devtools完成
devtools::install_github('satijalab/seurat-data')
Getting Started
加载SeuratData时,将显示所有可用数据集的列表(这与其他元数据包(如tidyverse)以及用于创建每个数据集的Seurat版本相似。suppressPackageStartupMessages
> library(SeuratData)
── Installed datasets ───────────────────────────────────────────────────────────── SeuratData v0.1.0 ──
✔ cbmc 3.0.0 ✔ panc8 3.0.0
✔ ifnb 3.0.0 ✔ pbmc3k 3.0.0
───────────────────────────────────────────────── Key ──────────────────────────────────────────────────
✔ Dataset loaded successfully
要查看所有可用数据集的清单,请使用AvailableData;该清单将随着新数据集上载到我们的数据存储库而更新。
> AvailableData()
Dataset Version Summary species system ncells tech notes Installed InstalledVersion
cbmc.SeuratData cbmc 3.0.0 scRNAseq and 13-antibody sequencing of CBMCs human CBMC (cord blood) 8617 CITE-seq <NA> TRUE 3.0.0
hcabm40k.SeuratData hcabm40k 3.0.0 40,000 Cells From the Human Cell Atlas ICA Bone Marrow Dataset human bone marrow 40000 10x v2 <NA> FALSE 3.0.0
ifnb.SeuratData ifnb 3.0.0 IFNB-Stimulated and Control PBMCs human PBMC 13999 10x v1 <NA> TRUE 3.0.0
panc8.SeuratData panc8 3.0.0 Eight Pancreas Datasets Across Five Technologies human Pancreatic Islets 14892 SMARTSeq2, Fluidigm C1, CelSeq, CelSeq2, inDrops <NA> TRUE 3.0.0
pbmc3k.SeuratData pbmc3k 3.0.0 3k PBMCs from 10X Genomics human PBMC 2700 10x v1 <NA> TRUE 3.0.0
pbmcsca.SeuratData pbmcsca 3.0.0 Broad Institute PBMC Systematic Comparative Analysis human PBMC 31021 10x v2, 10x v3, SMARTSeq2, Seq-Well, inDrops, Drop-seq, CelSeq2 HCA benchmark FALSE 3.0.0
数据集的安装可以使用InstallData; 此函数将接受数据集名称(例如pbmc3k)或相应的包名称(例如pbmc3k.SeuratData)。InstallData会自动附加已安装的数据集软件包,因此可以立即加载和使用数据集。
> InstallData("pbmc3k")
使用data
功能完成数据集的加载
> data("pbmc3k")
> pbmc3k
An object of class Seurat
13714 features across 2700 samples within 1 assay
Active assay: RNA (13714 features)
Dataset documentation and information
数据集文档和信息
所提供的所有数据集均具有为其构建的帮助页面。使用标准help
功能访问这些页面
> ?pbmc3k
> ?ifnb
这些帮助页面的示例部分提供了用于生成每个数据集的步骤的完整命令列表。
程序包通常还会将引用信息与程序包捆绑在一起。可以通过将包名称而不是数据集名称传递给citation
函数来访问引用信息
> citation('cbmc.SeuratData')
To cite the CBMC dataset, please use:
Stoeckius et al. Simultaneous epitope and transcriptome measurement in
single cells. Nature Methods (2017)
A BibTeX entry for LaTeX users is
@Article{,
author = {Marlon Stoeckius and Christoph Hafemeister and William Stephenson and Brian Houck-Loomis and Pratip K Chattopadhyay and Harold Swerdlow and Rahul Satija and Peter Smibert},
title = {Simultaneous epitope and transcriptome measurement in single cells},
journal = {Nature Methods},
year = {2017},
doi = {10.1038/nmeth.4380},
url = {https://www.nature.com/articles/nmeth.4380},
}
基本原理和实施
我们创建SeuratData的目的是尽可能以无痛且可复制的方式分发Seurat 小插曲的数据集。我们还希望为用户提供选择性地安装和加载感兴趣的数据集的灵活性,以最大程度地减少磁盘存储和内存使用。
为此,我们选择通过单个R包分发数据集。在后台,SeuratData使用并扩展了标准R函数,例如install.packages
用于数据集安装,available.packages
数据集列表和data
数据集加载。
因此,SeuratData充当R的更特定的包管理器(类似于元包)。我们为R的包管理功能提供包装器,对其进行扩展以提供有关每个数据集的相关元数据,并设置默认设置(例如,存储数据的存储库)。存储)以方便安装。
https://github.com/satijalab/seurat-data#dataset-documentation-and-information