单细胞单细胞10XGenomics 转录组分析scRNA-seq

Seurat包之导入单细胞数据方式汇总

2021-07-19  本文已影响0人  小贝学生信

挖掘公共单细胞数据集时,会遇到常见各种单细胞测序数据格式。现总结如下,方便自己日后调用,以创建Seurat对象
(1)barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz
(2)表达矩阵
(3)h5
(4)h5ad

格式一:barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz【☆】

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE166635
dir="./data/HCC2/filtered_feature_bc_matrix/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz" 

counts <- Read10X(data.dir = dir)
class(counts)
#[1] "dgCMatrix"
#attr(,"package")
#[1] "Matrix"

scRNA <- CreateSeuratObject(counts = counts)
scRNA
#An object of class Seurat 
#33694 features across 9112 samples within 1 assay 
#Active assay: RNA (33694 features, 0 variable features)

关于barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz三个文件的格式与内容

dir = "./GSE148192_RAW/GSM4462451/"
list.files(dir)
#[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz"
counts =  Read10X(dir)
#Error in dimnamesGets(x, value) : 
#  invalid dimnames given for “dgTMatrix” object

(1)barcodes.tsv.gz

(2)features.tsv.gz

(3)matrix.mtx.gz

经过一番探索,将GSM4462451的barcodes.tsv.gzfeatures.tsv.gz行名删除;matrix.mtx.gz的第一列与第二列调换,第三列改为整型后,read10X()便可以顺利都成功。我认为GSM4462451这几个文件应该是作者自己制作的,吐槽一下~~。不过了解了一番这三个文件的格式也是有所收获。

格式二:直接提供表达矩阵

scRNA <- CreateSeuratObject(counts = counts)
scRNA

格式三:h5格式文件

image.png
sce <- Read10X_h5(filename = GSM4107899_LH16.3814_raw_gene_bc_matrices_h5.h5")
sce <- CreateSeuratObject(counts = sce)

格式四:h5ad格式

#remotes::install_github("mojaveazure/seurat-disk")
library(SeuratDisk)
Convert("GSE153643_RAW/GSM4648565_liver_raw_counts.h5ad", "h5seurat",
        overwrite = TRUE,assay = "RNA")
scRNA <- LoadH5Seurat("GSE153643_RAW/GSM4648565_liver_raw_counts.h5seurat")
#注意一下,我之前载入时,表达矩阵被转置了,需要处理一下~

以上是我目前了解到的针对不同数据来源,创建Seurat对象的几种方式。如遇新的方法,会继续补充~~

上一篇下一篇

猜你喜欢

热点阅读