单细胞转录组生信笔记

10x RNAseq Cellranger结果的对应关系:

2022-05-16  本文已影响0人  11的雾

10x RNAseq数据

在用cellranger 跑完10xRNaseq数据分析后,会生成一个outs目录,

这个目录下还有一个/filtered_feature_bc_matrix目录,里面放着三个文件:

matrix.mtx.gz

features.tsv.gz

barcodes.tsv.gz

这三个文件的对应关系是什么样的呢?今天我们来一探究竟:

(一) matrix.mtx.gz文件:
image.png
(二) features.tsv.gz
image.png

多说一句: 如果建库时有CITEseq的信息,会增加表面蛋白基因信息到这个文件的底部:比如这里增加了三个表面蛋白基因.

image.png
(三) barcode.tsv.gz文件:
image.png
这三个文件的对应关系:

先看一下barcode文件有多少行,就表示有多少barcode,也就是细胞:

le  barcodes.tsv.gz |wc

  9631    9631  182989

再看一下有多少gene(features)文件有多少行.表示总共有多少个基因.

$ le features.tsv.gz |wc

  36601  146404 1479171

就会发现,9631个barcode和36601个基因跟matrix文件中的第三行是对应的,matrix表格中第三行的第三列数字是umi的总数。图一绿色框所示.

matrix.tsv.gz这个文件,前两行以%开头的信息可以忽略,第三行是总数,从第四行开始,每一行是某一个基因(第一列)在某一个barcode(第二列)中的 umi count(第三列)。基因和barcode的数字分别对应于barcodes.tsv.gz和features.tsv.gz的行数。

举例: 比如文件第四行的数字是33509 1 67,就是features.tsv第33509行的这个基因,在barcodes.tsv第1行的barcode里,有67个umi count.

我们来验证一下:

在features.tsv文件中找到第33509行的基因"ISG15",再找到barcode.tsv中第一行的barcode: "AAACCTGGTCCTAGCG-1",然后用这两个值在R中找一下看看是不是结果等于67就可以了.

library(Seurat)
data = Seurat::Read10X(data.dir='/xxx/filtered_feature_bc_matrix')

data$`Gene Expression`['ISG15','AAACCTGGTCCTAGCG-1']
[1] 67
上一篇下一篇

猜你喜欢

热点阅读