TCR
TRUST
1、 概述
TRUST,是从RNA-seq原始数据组装到TCR CDR3的软件,专门为RNA-seq数据设计的工具[Ref1]。
它是这样评价先前的工具的:[Ref2]
However,these studies adopted computational methods not specifically designed for unselected RNA-seqdata14–16, resulting in poor detection of CDR3 sequences and limited power in downstream characterization of the tumor-infiltrating T cell repertoires of the cohorts.
2、 工作流程
比对RNA-seq数据,把那些没有比对到基因组的reads从头组装出候选CDR3序列,最后用IMGT数据库的数据注释这些序列,保留能注释到的作为最终组装到的CDR3序列。
原理示意图:
3、 TRUST的使用
一、输入准备:
输入文件需要bam和与之对应的索引文件bai
第一步:比对RNA-seq数据,获得bam文件,并且将未比对上的reads和比对上的reads合并到一个bam文件里,作为TRUST输入。
第二步:为输入文件bam构建索引,注意bam文件和对应的索引文件bai要在同一个路径下。
二、开始组装:
运行TRUST,组装CDR3
例子:以及tophat做比对软件为例
一、输入准备:
#比对RNA-seq数据
#注意使用tophat的-o参数,将每个样本比对结果单独写进自己单独的文件夹,因为tophat结果文件没有样本标签
tophat2 -o /pub6/temp/cmj/Bam2/sample hg19 sample_1.fastq sample_2.fastq
#比对结果文件如下,如果不单独建立一个文件夹,后一个样本结果可能覆盖前一个样本
#合并比对上和未比对上的bam文件,输出为sample.unsorted.bam
samtools merge sample.unsorted.bam accepted_hits.bam unmapped.bam
#构建sample.unsorted.bam文件的索引
samtools sort --threads 8 -o sample.sort.bam sample.unsorted.bam
samtools index sample.sort.bam
二、开始组装:
#组装CDR3序列
trust -f sample.sort.bam -g hg19 -c
4、 参数介绍
trust -f sample.sort.bam -g hg19 -c
##必须参数
-f 是你需要组装的RNA-seq比对的结果文件,里边需要含有未比对到基因组上的reads
-F 处理给定文件名list下所有的文件(在一个txt文档里)
-d 处理给定文件夹下所有的bam文件
#以上是三选一
-g 你要使用的索引,可选hg19或者hg38
##可选参数
-c 输出文件里,包含TCR基因的coverage文件
-B 组装BCR的序列(我未使用过)
-B -L 组装BCR的轻链(我未使用过)
-o 输出结果所在的文件夹
更详细的情况请参考:
https://bitbucket.org/liulab/trust/
或者在该链接下对应的论坛交流
5、 结果文件
主要有三个文件:
其中.fa文件结果如下:
## Information line contains the following fields:
# File name
# Normalized read count, or relative expression
# Contig sequence length
# Total TCR reads count
# TRUST annotated variable gene
# TRUST annotated joining gene (and constant gene in the case of B cell heavy chain)
# Aligner reported gene (PE mode only)
# CDR3 amino acid sequence
# -log(E value), QC measure for mapping CDR3 contig to IMGT reference
# CDR3 DNA sequence
#其中第三个是每个基因覆盖度
#txt文件和fa文件基本一样,fa文件是经过过滤掉一些短的CDR3 aa(来源于该软件论坛)
Ref1: Ultrasensitive detection of TCR hypervariable-region sequences insolid-tissue RNA–seq data,Nat Genetics,30 March 2017.27
Ref2: Landscapeof tumor-infiltrating T cell repertoire of human cancers, Nat Genetics, 2016,27