Bulk VDJ测序数据处理基本方法

2020-09-18  本文已影响0人  明远鸢

本文为免疫组库数据预处理,仅简要介绍大体处理策略,更详细的命令行以及命令行和输出结果的意义,请大家自行查看各个工具的详细说明文档!

免疫组库测序,从文献和公开数据库搜寻来的数据,预处理策略简要介绍如下:

1. 数据集格式统统化简为vdjtools输入格式

目前,免疫组库分析工具相当多,这些分析工具得到的结果,格式往往不同。我建议,拿到免疫组库数据后,把数据统统转换为vdjtools的格式。首先,这种格式非常简洁明了,一共11列,每一列定义如下:

Column Definition
count 克隆数目
frequency 克隆占比
CDR3nt CDR3核酸序列
CDR3aa CDR3氨基酸序列
V V区
D D区
J J区
Vend CDR3核酸序列上,V区结束的位置
Dstart CDR3核酸序列上,D区起始的位置
Dend CDR3核酸序列上,D区结束的位置
Jstart CDR3核酸序列上,J区开始的位置

最后四列为可选输入,主要信息在前7列中都包括了。

使用vdjtools转格式非常简单,下载vdjtools的java包,使用vdjtools convert模块,按如下命令运行:

java -jar vdjtools-1.2.1.jar convert -S tool_name input_file out_prefix

其中,-S 参数表示输入数据的格式,必须要输入。vdjtools支持10种工具格式的转换,详见vdjtools-format。若不知道数据输入格式,可以尝试使用R包immunarch中的repLoad函数。immunarch同样支持上述多种工具的结果作为输入,而且repLoad读取这些输入的时候会自动识别输入格式。具体代码参见这里

2. 从Reads拿到免疫库克隆列表

从测序Reads拿到克隆库列表,推荐使用MixCR。同样是java包,使用非常简单。首先,软件自带人、大小鼠的免疫库参考序列,使用的时候只要指定物种名即可。该工具把比对、克隆序列构建和克隆计数等步骤统一打包,使用mixcr analyze模块,一行代码即可实现一个免疫库测序样品的分析。示例命令行如下:

mixcr analyze amplicon # 扩增子测序
    -s <species> \ # 物种名称,hsa、mmu或rat
    --starting-material <startingMaterial>  \ # 测序材料、dna或rna
    --5-end <5End> --3-end <3End> \  # 引物信息
   --receptor-type xcr \ # 测序目标区段:tcr, bcr, tra, trb, trg, trd, igh, igk, igl等,xcr默认为所有区段
    --adapters <adapters> \  # 序列中是否包含引物?Raw Reads可以填adapters-present
    [OPTIONS] input_file1 [input_file2] analysis_name

MixCR得到的结果,同样可以使用vdjtools convert进行转换,变成vdjtools简洁明了的格式。

上一篇下一篇

猜你喜欢

热点阅读