空间转录组空间转录组单细胞

【10X空间转录组Visium】(一)Space Ranger

2020-03-25  本文已影响0人  Geekero

今天是2019月12月3日,10X空间转录组的新流程发布了,比起安装旧版的ST Spatial系列好装了太多太多。。。
跟以前各个系列的Cell Ranger一样,可以生成FASTQ和计数矩阵,还能自动进行二级分析,操作和生成的目录文件结构跟以前都很相似,可以说比较容易上手。
旧号无故被封,小号再发一次

更多空间转录组文章:

1. 新版10X Visium
2. 旧版Sptial

主要参考官网:https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/what-is-space-ranger

总共要下载两个东西:Space Ranger - 1.0.0 (November 25, 2019) 和 Loupe Browser 4.0.0 (December 2, 2019)

Space Ranger

Space Ranger包括与空间基因表达实验有关的两条管道:

这些管道将Visium专用算法与广泛使用的RNA序列比对软件STAR相结合。输出以标准BAM,MEX,CSV,HDF5,TIFF,PNG,JPEG和HTML格式提供,并增加了空间信息。

Visium-specific 术语

image.png

系统要求

Space Ranger管道在满足以下最低要求的Linux系统上运行:

为了在集群模式下运行,集群需要满足以下附加最低要求:

下载Space Ranger - 1.0.0

curl -o spaceranger-1.0.0.tar.gz "http://cf.10xgenomics.com/releases/spatial-exp/spaceranger-1.0.0.tar.gz?Expires=1575402715&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9zcGF0aWFsLWV4cC9zcGFjZXJhbmdlci0xLjAuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE1NzU0MDI3MTV9fX1dfQ__&Signature=fACB1rzbHv1rwUicNqL8SheRe6FkFOKxow5cTXcZPfOPBOTBEplElFMnOi4Xv4A2X3kydX45B-JnIaRj7I6a2doGEMTyqv84BnM5LxHAVBtWrXJyQqXbKKtgl9Dxe4BDnM9rPKhs6o2UbmWWAHX8Xu4J3~vgP3yXbhovuyl6OqCxu5p82oxTeOfN0bONqZdZ33svlAXJhatUTdpse2YCSRJZzov69NSHF6gE5DXl6iu5RWU7AgnjFgCuEFkQMwyn-FoYi2~i0s2fOFK0RCVI07~YKNDsjz3eXgOoHjWGPtWw5DAbPpTB2~32xkGzYeIYeZjH6m5JEgNGuvfWEyj~Aw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

下载参考序列:

curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-mm10-3.0.0.tar.gz

其他下载:
Visium – CSV | JSON

安装Space Ranger

$ tar -xzvf spaceranger-1.0.0.tar.gz
vi ~/.bashrc  # 填入 export PATH=/opt/spaceranger-1.0.0:$PATH
source ~/.bashrc

验证安装:

$ spaceranger testrun --id=tiny

无论测试管道成功与否,您都会看到:

Saving diagnostics to tiny/tiny.mri.tgz

此tiny.mri.tgz文件包含10x诊断信息,可以肥肠方便地用一下命令发给10X,让他们帮你解决问题:

$ spaceranger upload your@email.edu tiny/tiny.mri.tgz

服务器没连网发邮箱support@10xgenomics.com

解压reference

tar -xzvf refdata-cellranger-GRCh38-3.0.0.tar.gz

运行Space Ranger

根据性能曲线图,CPU限制在32个核心,内存限制在128G
https://support.10xgenomics.com/spatial-gene-expression/software/overview/system-requirements
3种运行方式:

  1. 单服务器:这是最直接的方法,也是最简单的故障排除方法。
  2. 作业提交模式
  3. 群集模式:此方法可提供高性能,但由于群集设置因机构而异,因此很难进行故障排除。

单服务器运行方案:

默认, spaceranger使用所有可用的内核和90%的检测到的内存。在具有多个并发用户和任务的共享环境中,此行为可能是不希望的。强烈建议运行spaceranger 与 --localcores 和 --localmem指定资源使用上限。

一、运行spaceranger mkfastq

管道结构

输入文件建议:
1. Sequencing - Read 2 Length
- 由于“索引跳跃”,Space Ranger要求使用“双重索引”dual-indexing,,在该索引中,使用i7和i5样本索引生成了复用库。
- 在我们的实验中,使用91个碱基的R2长度可获得最佳的作图速率,从而获得灵敏度,而对于较短或较长的读取,最佳性能则较低。
- 如果您已使用91个以上的碱基进行测序,则Space Ranger可以根据需要调整数据,从而为您的样品找到最佳选择:查看--r2-length 选项 spaceranger count
- 如果您对较短的读长进行了测序,则分析仍然可以进行,但灵敏度可能会降低。

R2长度对样品组织类型的敏感性

2. 图像输入建议:
Visium使用的所有输入组织图像必须是24位彩色TIFF,16位灰度TIFF或JPEG。除了Loupe浏览器和Space Ranger的这些基本文件类型要求之外,Space Ranger中的自动图像处理管道还施加了以下概述的其他限制。如果不能满足这些限制,您仍然可以使用Loupe Browser中的手动对齐和组织选择过程来处理数据。

spaceranger mkfastq生成FASTQs

工作流程:

  • 将10x样本索引名称翻译为i7 / i5双索引中的相应寡核苷酸。例如,样品表中的A1孔可以指定为SI-TT-A1,并且spaceranger mkfastq会将i7和i5索引分别识别为GTAACATGCG和AGTGTTACCT。
  • 支持简化的CSV样本表格式,以处理10个用例。
  • 生成测序和特定于10X的质量控制指标,包括条形码质量,准确性和多样性。
  • 支持大多数bcl2fastq参数,例如--use-bases-mask

工作流程示例

在此示例中,有两个10x库(每个库均通过单独的捕获区域处理)在单个流通池上多路复用。注意spaceranger mkfastq运行,我们在每个文库上运行管道的单独实例。

image.png

在此示例中,一个10x库在两个流通池上测序。注意spaceranger mkfastq运行,我们在生成的所有FASTQ文件上运行管道的单个实例。

image.png

运行示例数据

spaceranger mkfastq可以识别两种用于描述样本的文件格式:一种简单的三列CSV格式,以及所使用的Illumina实验管理器(IEM)样本表格式bcl2fastq

要继续,请执行以下操作:

  1. 下载tiny-bcl tar文件
  2. 将tiny-bcl tar文件解压缩到方便的位置。这将创建一个新的tiny-bcl子目录。
  3. 下载简单的CSV布局文件:spaceranger-tiny-bcl-simple-1.0.0.csv
  4. 下载Illumina实验管理器样本表:spaceranger-tiny-bcl-samplesheet-1.0.0.csv
Lane,Sample,Index
1,test_sample,SI-TT-D9

使用简单布局mkfastq在tiny-bcl测序运行中运行的方法:

如果未按样本索引测序,则需要使用此格式。spaceranger-tiny-bcl-samplesheet-1.0.0.csv在运行管道之前简要查看一下。

$ spaceranger mkfastq --id=tiny-bcl \
                     --run=/path/to/tiny_bcl \
                     --csv=spaceranger-tiny-bcl-simple-1.0.0.csv

其中:
- run (必需) Illumina BCL运行文件夹的路径。
- id (可选;默认为所引用的流通池的名称--run) mkfastq创建的文件夹的名称。
--csv (可选)具有泳道,样本和索引列的简单CSV路径,描述了对流通池进行解复用的方式。索引列应包含10X样本双索引名称(例如,SI-TT-A12)。这是Illumina IEM样本表的替代方法,如果--samplesheet指定则将被忽略。

数据样式:

[Data]
Lane,Sample_ID,Sample_Name,Sample_Plate,Sample_Well,I7_Index_ID,index,I5_Index_ID,index2,Sample_Project,Description
1,s1,test_sample,,,SI-TT-D9,SI-TT-D9,SI-TT-D9,SI-TT-D9,p1,

SI-TT-D9指的是10X样本双索引。
在此示例中,将仅使用从通道1读取。要在所有泳道上多路分解给定的样本索引,请完全省略泳道列。

$  spaceranger mkfastq --id = tiny-bcl \ 
                     --run = / path / to / tiny_bcl \ 
                     --samplesheet = spaceranger-tiny-bcl-samplesheet-1.0.0.csv 

检查FASTQ输出

结果文件夹名字由--id决定

$ ls -l
drwxr-xr-x 4 jdoe  jdoe     4096 Nov 14 12:05 tiny-bcl

关键输出文件可在中找到outs/fastq_path,并以与常规bcl2fastq运行相同的方式进行组织:

$ ls -l tiny-bcl/outs/fastq_path/

读取质量控制指标

--qc指定该标志后,spaceranger mkfastq管道会将测序和10x特定的质量控制指标写入JSON文件。指标位于outs/qc_summary.json文件中。

通过查看此输出,您可以在运行spaceranger管道之前诊断低条形码映射率和reads质量

指定10x管道的输入FASTQ文件

spaceranger count管道需要FASTQ文件作为输入,通常来自运行spaceranger mkfastq,但是,可以使用其他来源的FASTQ文件,例如Illumina的 bcl2fastq,已发布的数据集或我们的 bamtofastq

二、运行spaceranger count

spaceranger count管道的参数:

参数 描述
fastqs (必需)包含要分析的FASTQ文件的文件夹。通常,这是spaceranger mkfastq 产生的fastq_path文件夹。如果文件位于多个文件夹中(例如,由于一个库在多个流通池中测序),请提供以逗号分隔的路径列表。
sample (可选)要分析的样品名称。这是提供给mkfastq 或 bcl2fastq的sample sheet。多个名称可以用逗号分隔的列表提供,在这种情况下,它们被视为一个样本。
lanes (可选)与此样本关联的通道。默认为所有通道。
indices (已弃用/可选。仅用于从 spaceranger demux。)与该样本关联的样本索引。

Fastq文件输出目录

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/fastq-input

用spacerange count进行单库分析

  1. 运行spaceranger mkfastq 在Illumina BCL输出文件夹中,以生成FASTQ文件。
  2. 运行spaceranger count,通过spaceranger mkfastq在每个的捕获区域上进行demultiplexed
    对于以下示例,假定Illumina BCL输出在名为的文件夹中/sequencing/140101_D00123_0111_AHAWT7ADXX
$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
                   --transcriptome=/opt/refdata/GRCh38-3.0.0 \
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --image=/home/jdoe/runs/images/sample345.tif \
                   --slide=V19J01-123 \
                   --area=A1

手动对齐:
使用在Loupe Browse中生成的基准对齐和组织分配 json文件为单个库生成空间特征计数

$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
                   --transcriptome=/opt/refdata/GRCh38-3.0.0 \
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --image=/home/jdoe/runs/images/sample345.tif \
                   --slide=V19J01-123 \
                   --area=A1 \
                   --loupe-alignment=sample345.json

spaceranger将默认使用系统上可用的所有核心数来执行管道。您可以为--localcores选项指定不同数量的核新数。--localmem限制使用的内存量(以GB为单位)
管道将创建一个新文件夹,其名称为输出指定的sample ID(例如/home/jdoe/runs/sample345)。如果此文件夹已经存在,spaceranger 将假定它是已存在的管道,并尝试恢复运行。
Slide序列号和捕获区域参数:

下载slide文件

输出文件

成功运行后的输出:

Outputs:
- Run summary HTML:                         /opt/sample345/outs/web_summary.html
- Outputs of spatial pipeline:              /opt/sample345/outs/spatial
- Run summary CSV:                          /opt/sample345/outs/metrics_summary.csv
- BAM:                                      /opt/sample345/outs/possorted_genome_bam.bam
- BAM index:                                /opt/sample345/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX:    /opt/sample345/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5:   /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX:  /opt/sample345/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/sample345/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV:            /opt/sample345/outs/analysis
- Per-molecule read information:            /opt/sample345/outs/molecule_info.h5
- Loupe Browser file:                       /opt/sample345/outs/cloupe.cloupe
 
Pipestance completed successfully!

管道的输出包含在以您指定的sample ID命名的文件夹中(例如sample345)。名为outs的子文件夹包含主要管道输出文件:

文档名称 描述
web_summary.html 以HTML格式运行摘要指标和图表
spatial 该目录包含jpg格式的对齐基准点和检测到的组织的QC图像,scalefactors_json.json,png格式的输入图像的高分辨率和低分辨率版本以及tissue_positions_list.txt
spatial/aligned_fiducials.jpg 对齐的基准QC图像
spatial/detected_tissue_image.jpg 检测到的组织QC图像
spatial/detected_tissue_image.png 全分辨率图像在最长尺寸上降采样为2k像素
spatial/detected_tissue_image.png 全分辨率图像在最长尺寸上降采样为600像素
spatial/tissue_positions_list.csv 包含斑点条形码的CSV,如果该斑点是在组织的(1)之下或在组织(0)外调用的,则全分辨率图像的阵列位置,图像像素位置x和图像像素位置y
spatial/scalefactors_json.json 包含用于全分辨率原始图像的以像素为单位的点直径估计,组织_hires_scalef(用于高分辨率图像的以像素为单位的点位置乘数),用于全分辨率原始图像的以基准像素的基准点直径估计(以像素为单位),低分辨率图像的像素
metrics_summary.csv 以CSV格式运行摘要指标
possorted_genome_bam.bam reads与基因组和转录组比对,并带有条形码信息
possorted_genome_bam.bam.bai 索引 possorted_genome_bam.bam
filtered_feature_bc_matrix 过滤后的特征条形码矩阵,仅包含MEX格式的spot barcode
filtered_feature_bc_matrix_h5.h5 过滤后的特征条形码矩阵,仅包含HDF5格式的spot barcode
raw_feature_bc_matrices 包含所有MEX格式条形码的未经过滤的特征条形码矩阵
raw_feature_bc_matrix_h5.h5 包含所有HDF5格式条形码的未经过滤的特征条形码矩阵
analysis 二级分析数据,包括降维,斑点聚类和差异表达
molecule_info.h5 分子使用的分子水平信息 spaceranger aggr 将样本聚合为更大的数据集。
cloupe.cloupe Loupe Browser 可视化和分析文件

一旦 spaceranger count成功完成后,您可以 在任何受支持的Web浏览器中浏览生成的 summary HTML file,在 Loupe Browser,中打开.cloupe文件 ,或参考了解输出部分以手动浏览数据。

命令行参数参考

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/count
常用参数:

--id:   A unique run ID string: e.g. sample345
--fastqs: fastq文件所在文件夹
--sample: 提供给样品表中指定的样品名称
--transcriptome: 与Space Ranger兼容的转录组参考的路径,例如 /opt/GRCh38-3.0.0
--image: .jpg或.tiff格式的明场组织H&E图像。
--slide: Visium slide 序列号
--area: Visium捕获区域标识符
--slidefile: slide布局文件指示捕获点和基准点位置
--loupe-alignment   由手动 Loupe对齐步骤生成的对齐文件。在这种情况下,必须提供--image。
--unknown-slide: 使用默认的spot位置
--lanes:    (可选)与此样本关联的泳道
--localcores: 限制核心数
-localmem:限制内存

故障排查

输出文件

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/output/overview
1. Web Summary:
运行概要:
web_summary.html:包含:摘要指标和自动二级分析结果

image.png

2. Run Analysis:
count管道输出几个包含自动二级分析结果的CSV文件。这些结果的一部分用于在运行摘要中呈现“分析”视图。

$ cd /home/jdoe/runs/sample345/outs
$ head -2 analysis/pca/10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACATACAACGAA-1,-0.2765,-5.7056,6.5324,-12.2736,-1.4390,-1.1656,-0.1754,-2.9748,3.3785,1.6539

第二个文件是组件矩阵components matrix,该矩阵指示每个功能对每个主成分的贡献度(负载)。未包含在PCA分析中的特征的所有加载值均设置为零。

$ head -2 analysis/pca/10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104

第三个文件记录了每个主成分解释的总方差的比例。在选择重要的主成分的数目时,查看作为PC等级函数的方差图很有用——当数字开始趋于平缓时,后续的PC不太可能代表数据中有意义的变化。

$ head -5 analysis/pca/10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206

最后一个文件列出了每个特征的归一化的离散度,然后将特征按其在整个数据集中的平均表达量进行分箱binning 。这为每个特征的差异提供了有用度量。

$ head -5 analysis/pca/10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921
$ head -5 analysis/tsne/2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300
$ ls analysis/clustering
graphclust         kmeans_10_clusters  kmeans_2_clusters  kmeans_3_clusters
kmeans_4_clusters  kmeans_5_clusters   kmeans_6_clusters  kmeans_7_clusters
kmeans_8_clusters  kmeans_9_clusters

对于每个聚类, spaceranger为每个位置生成聚类分配cluster assignments

$ head -5 analysis/clustering/kmeans_3_clusters/clusters.csv
Barcode,Cluster
AAACATACAACGAA-1,2
AAACATACTACGCA-1,2
AAACCGTGTCTCGC-1,1
AAACGCACAACCAC-1,3
$ head -5 analysis/diffexp/kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744

3. 矩阵:Feature-Barcode Matrices

$ cd /home/jdoe/runs/sample345/outs
$ tree filtered_feature_bc_matrix
filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz
0 directories, 3 files
$ gzip -cd filtered_feature_bc_matrix/features.tsv.gz
ENSG00000141510       TP53         Gene Expression
ENSG00000012048       BRCA1        Gene Expression
ENSG00000139687       RB1          Gene Expression

对于Gene Expression 数据,该ID对应在参考GTF的注释字段 gene_id中。同样,名称对应于在参考GTF的注释字段gene_name中。如果没有gene_name 字段存在于参考GTF中,基因名称等同于基因ID。

对于多物种实验,基因ID和名称以基因组名称开头,以避免不同物种的基因之间发生名称冲突,例如GAPDH变为hg19_GAPDH,而Gm15816变为mm10_Gm15816。

条形码序列对应于列索引:

$  gzip的-cd filtered_feature_bc_matrices / hg19 / barcodes.tsv 
AAACATACAAAACG-1 
AAACATACAAAAGC-1 
AAACATACAAACAG-1 
AAACATACAAACGA-1 
AAACATACAAAGCA-1 
AAACATACAAAGTG-1 
AAACATACAACAGA-1 
AAACATACAACCAC-1 
AAACATACAACCGT-1 
AAACATACAACCTG-1

条形码BAM部分提供了有关条形码序列格式的更多详细信息

R和Python支持MEX格式,稀疏矩阵可用于更有效的处理。

将矩阵加载到R中:

library(Matrix)
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix/"
barcode.path <- paste0(matrix_dir, "barcodes.tsv.gz")
features.path <- paste0(matrix_dir, "features.tsv.gz")
matrix.path <- paste0(matrix_dir, "matrix.mtx.gz")
mat <- readMM(file = matrix.path)
feature.names = read.delim(features.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)
barcode.names = read.delim(barcode.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)
colnames(mat) = barcode.names$V1
rownames(mat) = feature.names$V1

将矩阵加载到Python

import csv
import gzip
import os
import scipy.io
 
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix"
mat = scipy.io.mmread(os.path.join(matrix_dir, "matrix.mtx.gz"))


features_path = os.path.join(matrix_dir, "features.tsv.gz")
feature_ids = [row[0] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
gene_names = [row[1] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
feature_types = [row[2] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
barcodes_path = os.path.join(matrix_dir, "barcodes.tsv.gz")
barcodes = [row[0] for row in csv.reader(gzip.open(barcodes_path), delimiter="\t")]

转换为CSV格式

例如,对在当前目录中名为sample123的pipestance:

# convert from MEX
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix sample123.csv
# or, convert from H5
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix.h5 sample123.csv

然后可以加载 sample123.csv 到Excel。
警告:密集文件可能非常大,如果您的计算机没有足够的内存, 可能导致Excel崩溃甚至mat2csv失败
4. 图片:影像输出
管道输出包含一个名为spatial的子目录,用于存储与影像相关的文件。这些文件包括以下内容:

$ cd /home/jdoe/runs/sample345/spatial/outs
$ cat scalefactors_json.json
{"spot_diameter_fullres": 89.45248682925602, "tissue_hires_scalef": 0.17699115, "fiducial_diameter_fullres":   144.5001710318751, "tissue_lowres_scalef": 0.053097345}
$ cd /home/jdoe/runs/sample345/outs/spatial/
$ head -2 tissue_positions_list.txt
ACGCCTGACACGCGCT-1,0,0,0,910,1261
TACCGATCCAACACTT-1,0,1,1,1030,1329

5. BAM:Barcoded BAM
spaceranger管道输出一个 indexed BAM文件,其中包含与基因组和转录组按位置进行排序比对的reads。与基因组中外显子连接处的转录组比对的reads在其 CIGAR string 中存在较大的缺口,即35M225N64M。

此BAM文件中的每个读取都附有Visium细胞和分子条形码信息。Space Ranger修改MAPQ值;请参见下面的 MM tag。以下假设基本熟悉BAM格式。在线可获取有关the SAM/BAM standard的更多详细信息。

spot barcodeCB标签包含带短划线分隔符的后缀,后跟数字:

AGAATGGTCTGCAT-1

在当前的Space Ranger输出中,该数字将始终为(1)。

6.Molecule Info (H5)
分子信息: spaceranger管道会输出一个HDF5文件,该文件包含每个分子的分子信息,其中包含有效条形码和有效UMI并以高可信度比对到基因的信息。该HDF5文件包含与观察到的分子相对应的数据,以及有关用于分析的libraries,特征集和条形码列表的数据。

(root)
|
├─ barcode_idx
├─ barcode_info [HDF5 group]
│   ├─ genomes  
│   └─ pass_filter
├─ barcodes
├─ count
├─ feature_idx
├─ features [HDF5 group]
│   ├─ _all_tag_keys
│   ├─ feature_type
│   ├─ genome
│   ├─ id
│   ├─ name
├─ gem_group
├─ library_idx
├─ library_info
├─ metrics [HDF5 group; see below]
└─ umi

请注意,spot-barcode sequences没有这种编码。它们以纯字符串形式存储在library_infoHDF5 Group 中。

7. GEX/Image Metrics:

Suspect Alignment: 当基准对齐算法失败时,Metric为True。如果对齐过程报告了看起来有比较大的缩放,旋转或平移,则管道将发出警告,要求用户密切检查基准对齐的结果(请参见下图)。


image.png

PS:没有这样的警告并不能保证成功,因此用户还是得检查一下

上一篇下一篇

猜你喜欢

热点阅读