单细胞上游软件cellranger从头说

2020-04-01 本文已影响0人小潤澤

对于我们的10x数据上游分析，主要靠cellranger

拆分bcl

安装bcl2fastq

这是它的官网：https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
我们可以参照上面的安装过程
我们一般下载这一个，然后新建一个文件夹，拖到自己的工作站上

那么在一个新的文件夹下

#新建build文件夹
mkdir build
#新建install文件夹
mkdir install

#解压
unzip bcl2fastq2-v2-20-0-tar.zip
tar -xvzf bcl2fastq2-v2.20.0.422-Source.tar.gz
#进入build文件夹
cd build
#配置
/...../bcl2fastq/src/configure --prefix=/home/username/.../bcl2fastq/install

#安装（在build文件夹下）
make
make install

其中，build是你配置的文件夹，install是你安装的文件夹，解压后的bcl2fastq是存放源的文件夹
如果安装过程出错了，那可能是有些依赖库你的系统上没有，那么缺哪个就安装哪个就可以了

如果嫌麻烦的同学可以利用conda安装

conda install -c dranew bcl2fastq

然后添加到环境里即可

cellranger安装(V3)

安装地址：https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

按照官网上安装即可
解压后，这里我偷了个懒，把bin/bcl2fastq这个二进制可执行文件拷贝到了cellranger-3.1.0/cellranger-cs/3.1.0/bin/下

这样就不用加到环境里面了

文件下载

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/mkfastq#example_workflows

下载测试的地址如上
作为测试，可以先下载bcl文件

wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl

接下来是csv文件
接着就可以拆分了

cellranger mkfastq --id=tiny-bcl \
                     --run=tiny_bcl \
                     --csv=cellranger-tiny-bcl-simple-1.2.0.csv

--id表示输出文件路径，
--run表示输入文件路径，
--csv即为你下载illumina公司的csv文件
输出结果在tiny-bcl/out/fastq_path/下

整合参考基因

首先我们从Ensemble上下载对应物种的gtf文件和fasta文件

#filter
cellranger mkgtf gtf filtered.gtf 
                --attribute=gene_biotype:protein_coding \
                --attribute=gene_biotype:IG_LV_gene \
                --attribute=gene_biotype:IG_V_gene \
                --attribute=gene_biotype:IG_D_gene \
                --attribute=gene_biotype:IG_J_gene \
                --attribute=gene_biotype:IG_C_gene \
                --attribute=gene_biotype:TR_V_gene \
                --attribute=gene_biotype:TR_D_gene \
                --attribute=gene_biotype:TR_J_gene \
                --attribute=gene_biotype:TR_C_gene

cellranger mkgtf genomic.gtf genomic_coding.filtered.gtf 
                --attribute=gene_biotype:protein_coding

过滤的目的是除去一些假基因等一些在分析中没有什么用的注释，代码中的gtf指的是过滤前的gtf文件，filtered.gtf 指的是过滤后的gtf文件
建立索引

cellranger mkref 
    --genome=GRCz11_coding 
    --fasta=/.../GRCz11_genomic.fa 
    --genes=/.../genomic_coding.filtered.gtf

其中，
--genome是输出的文件，
--fasta是你下载参考基因组文件，是以fa结尾的文件，
--genes是过滤的gtf文件
貌似我在操作中--genome这个参数加不了绝对路径，不清楚是怎么回事

count计数

cellranger主要是利用STAR进行比对，然后在分选计数
在这里千万注意文件的命名，这里对命名要求是真的严格
命名：
存放测序数据fastq文件的文件夹的命名一定要和测序数据的文件命名相同，比方说

测序数据命名如上图，那么我们取_S1前面的TES42来做该文件夹的命名，如下图所示

cellranger count 
   --id=output_test 
   --transcriptome=/.../GRCz11_coding/ 
   --fastqs=/.../TES42/ 
   --sample=TES42 
   --force-cells=8000

其中：
--id是你输出路径文件夹，
--transcriptome是你之前过滤的参考基因组文件夹，
--fastqs是测序文件路径，写到存放的文件夹即可，
--sample要和你存放测序文件夹的文件名相同，
--force-cells是你的复现细胞数和实验设计有关

这是运行完的文件：

那么我们的下游分析（monocle和Seurat）的输入文件在哪里呢？
在out/filtered_feature_bc_matrix文件夹下

那么这三个就是下游分析的input：

参考：https://www.jieandze1314.com/post/cnposts/pre-learn-scrna-3/