一、outs目录概括
以下是10X官方给出的一个典型的vdj运行后的output 目录:
$ cd /home/jdoe/runs
$ cellranger vdj --id=sample345 \
--reference=/opt/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0 \
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
--sample=mysample \
Martian Runtime - v4.0.6
Running preflight checks (please wait)...
yyyy-mm-dd hh:mm:ss [runtime] (ready) ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT
yyyy-mm-dd hh:mm:ss [runtime] (run:local) ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT.fork0.chnk0.main
yyyy-mm-dd hh:mm:ss [runtime] (ready) ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT_LOCAL
...
Outputs:
- Run summary HTML: /home/jdoe/runs/sample345/outs/web_summary.html
- Run summary CSV: /home/jdoe/runs/sample345/outs/metrics_summary.csv
- Clonotype info: /home/jdoe/runs/sample345/outs/clonotypes.csv
- Filtered contig sequences FASTA: /home/jdoe/runs/sample345/outs/filtered_contig.fasta
- Filtered contig sequences FASTQ: /home/jdoe/runs/sample345/outs/filtered_contig.fastq
- Filtered contigs (CSV): /home/jdoe/runs/sample345/outs/filtered_contig_annotations.csv
- All-contig FASTA: /home/jdoe/runs/sample345/outs/all_contig.fasta
- All-contig FASTA index: /home/jdoe/runs/sample345/outs/all_contig.fasta.fai
- All-contig FASTQ: /home/jdoe/runs/sample345/outs/all_contig.fastq
- Read-contig alignments: /home/jdoe/runs/sample345/outs/all_contig.bam
- Read-contig alignment index: /home/jdoe/runs/sample345/outs/all_contig.bam.bai
- All contig annotations (JSON): /home/jdoe/runs/sample345/outs/all_contig_annotations.json
- All contig annotations (BED): /home/jdoe/runs/sample345/outs/all_contig_annotations.bed
- All contig annotations (CSV): /home/jdoe/runs/sample345/outs/all_contig_annotations.csv
- Barcodes that are declared to be targetted cells: /home/jdoe/runs/sample345/outs/cell_barcodes.json
- Clonotype consensus FASTA: /home/jdoe/runs/sample345/outs/consensus.fasta
- Clonotype consensus FASTA index: /home/jdoe/runs/sample345/outs/consensus.fasta.fai
- Contig-consensus alignments: /home/jdoe/runs/sample345/outs/consensus.bam
- Contig-consensus alignment index: /home/jdoe/runs/sample345/outs/consensus.bam.bai
- Clonotype consensus annotations (CSV): /home/jdoe/runs/sample345/outs/consensus_annotations.csv
- Concatenated reference sequences: /home/jdoe/runs/sample345/outs/concat_ref.fasta
- Concatenated reference index: /home/jdoe/runs/sample345/outs/concat_ref.fasta.fai
- Contig-reference alignments: /home/jdoe/runs/sample345/outs/concat_ref.bam
- Contig-reference alignment index: /home/jdoe/runs/sample345/outs/concat_ref.bam.bai
- Loupe V(D)J Browser file: /home/jdoe/runs/sample345/outs/vloupe.vloupe
- V(D)J reference:
fasta:
regions: /home/jdoe/runs/sample345/outs/vdj_reference/fasta/regions.fa
donor_regions: /home/jdoe/runs/sample345/outs/vdj_reference/fasta/donor_regions.fa
reference: /home/jdoe/runs/sample345/outs/vdj_reference/reference.json
- AIRR Rearrangement TSV: /home/jdoe/runs/sample345/outs/airr_rearrangement.tsv
- All contig info (ProtoBuf format): /home/jdoe/runs/sample345/outs/vdj_contig_info.pb
Waiting 6 seconds for UI to do final refresh.
Pipestance completed successfully!
二、web_summary.html
文件web_summary.html汇总分析结果。如果在运行期间检测到问题,此页面上会显示warning或error 。
- Reads Mapped to Any V(D)J Gene:比例越高,效果越好,一般大于60%,如果这个值比较低,可能是PCR扩增环节的循环数不够。
-
V(D)J Expression:这部分值取决于样本,通常能观察到TRB基因的表达大于TRA,Ig通常比TCR表达量高。
image.png
-
Paired Clonotype Diversity:可评估样本中的克隆多样性,如果该值为1,那么代表样本中只有1中克隆型存在
image.png
-
Fraction Reads in Cells:与细胞相关的barcodes 的所有reads pairs数除以所有的有效barcodes 的reads pairs数,这个值越高,代表样本质量越好。
cell calling结果
- Number of Reads:原始数据的reads pairs的数量。
- Valid Barcodes:和软件白名单barcode序列一致或只有1个碱基差别的reads百分比。
-
Q30 Bases in Barcode:被识别为细胞的reads的测序不同区段高质量测序的百分比。
image.png
三、表格结果
1、Clonotype CSV File (clonotypes.csv)
Column |
Description |
clonotype_id |
克隆型的 ID,按照1,2,3依次排列。 |
frequency |
在细胞中检查出的克隆型数量,侧面部分反映了克隆型的丰度。 |
proportion |
表达克隆型的细胞数占样本细胞总数的比例。 |
cdr3s_aa |
CDR3 氨基酸序列。 |
cdr3s_nt |
CDR3 核苷酸序列。 |
inkt_evidence |
对于 T 细胞,此列将包含该克隆型是一组 iNKT 细胞的证据(没有则为空白)。 证据是分号分隔的chain:matches 列表,其中chain 是TRA 或TRB 之一,matches 是genes 、junction 或genes+junction 之一。 有关详细信息,请参阅 iNKT/MAIT。 |
mait_evidence |
对于 T 细胞,此列将包含该克隆型是一组 MAIT 细胞的证据(如果有)。 证据是分号分隔的chain:matches 列表,其中chain 是TRA 或TRB 之一,matches 是genes 、junction 或genes+junction 之一。 有关详细信息,请参阅 iNKT/MAIT。 |
2、Contig Annotation CSV Files (*contig_annotations.csv)
Column |
Description |
barcode |
barcode名称 |
is_cell |
此barcode是否是一个细胞,True 或 False |
contig_id |
contig 的唯一标识符. |
high_confidence |
True 或 False,指contig是否被高置信度。 |
length |
contig 核苷酸的长度. |
chain |
与 contig 关联的链; 例如,TRA、TRB、IGK、IGL 或IGH。 “Multi”值表示存在来自多个链的片段 |
v_gene |
得分最高的 V 区 |
d_gene |
得分最高的 D 区 |
j_gene |
得分最高的 J 区 |
c_gene |
得分最高的 C 区 |
full_length |
contig 是否是全长
|
productive |
contig 是否是 productive
|
fwr1 |
预测的 FWR1 氨基酸序列 |
fwr1_nt |
预测的 FWR1 核苷酸序列 |
cdr1 |
预测的 CDR1 氨基酸序列 |
cdr1_nt |
预测的 CDR1 核苷酸序列 |
fwr2 |
预测的 FWR2 氨基酸序列 |
fwr2_nt |
预测的 FWR2 核苷酸序列 |
cdr2 |
预测的 CDR2 氨基酸序列 |
cdr2_nt |
预测的 CDR2 核苷酸序列 |
fwr3 |
预测的 FWR3 氨基酸序列。 |
fwr3_nt |
预测的 FWR3 核苷酸序列。 |
cdr3 |
预测的 CDR3 氨基酸序列。 |
cdr3_nt |
预测的 CDR3 核苷酸序列。 |
fwr4 |
预测的 FWR4 氨基酸序列。 |
fwr4_nt |
预测的 FWR4 核苷酸序列。 |
reads |
与此 contig 对齐的reads数。 |
umis |
与此 contig 对齐的不同 UMI 的数量。 |
raw_clonotype_id |
分配此细胞barcode的克隆型的 ID。 |
raw_consensus_id |
此 contig 分配到的一致性序列序列的 ID。 |
exact_subclonotype_id |
分配此细胞barcode的确切亚克隆类型的 ID。 |
3、Consensus Annotation CSV Files (consensus_annotations.csv)
Column |
Description |
clonotype_id |
克隆型的 ID |
consensus_id |
一致性序列序列的 ID |
v_start |
一致性序列上 V 区起始位置 |
v_end |
一致性序列上 V 区末端位置 |
v_end_ref |
参考上 V 基因末端位置 |
j_start |
一致性序列上 J 区起始位置 |
j_start_ref |
参考上 J 基因起始位置 |
j_end |
一致性序列上 J 区末端位置 |
cdr3_start |
一致性序列上 CDR3 区域起始位置 |
cdr3_end |
一致性序列上 CDR3 区域末端位置 |
4、AIRR Rearrangements TSV File (airr_rearrangement.tsv)
Column |
Description |
cell_id |
Cell barcode 序列 |
clone_id |
Clonotype ID. |
rev_comp |
Set to false by default (10x Genomics VDJ sequences are not reverse complemented). |
sequence_id |
与重排相关的contig的id |
sequence |
重排的核苷酸序列 |
sequence_aa |
重排的氨基酸序列 |
productive |
重新排列是否有效 |
v_call |
用于重排的对齐 V 基因的名称 |
v_cigar |
V 基因比对CIGAR string |
v_sequence_start |
V 区域起始位置的 contig |
v_sequence_end |
V 区域结束位置的 contig |
d_call |
用于重排的对齐 D 基因的名称 |
d_cigar |
D基因比对的CIGAR string |
d_sequence_start |
D 区域起始位置的 contig |
d_sequence_end |
D 区域结束位置的 contig |
j_call |
用于重排的对齐 J 基因的名称 |
j_cigar |
J基因比对的 CIGAR string |
j_sequence_start |
J 区域起始位置的 contig |
j_sequence_end |
J 区域末端位置的 contig |
c_call |
用于重排的对齐 C基因的名称 |
c_cigar |
The CIGAR string of the C gene alignment. |
c_sequence_start |
1-based index on the contig of the C region start position. |
c_sequence_end |
1-based index on the contig of the C region end position. |
sequence_alignment |
The aligned sequence of the VDJ rearrangement. |
germline_alignment |
The assembled, aligned, full-length inferred germline sequence of the aligned sequence. |
junction |
The nucleotide sequence of the rearrangement's junction (CDR3). |
junction_aa |
重排junction (CDR3) 的氨基酸序列 |
duplicate_count |
与此重排相关的 unique molecular 的数量 |
consensus_count |
与此重排相关的reads数 |
junction_length |
重排的连接核苷酸序列的长度 |
junction_aa_length |
重排的连接氨基酸序列的长度 |
is_cell |
Is this rearrangement cell-associated? |
参考:
官方结果文件说明
Understanding V(D)J Output