单细胞测序

单细胞上游软件cellranger从头说

2020-04-01  本文已影响0人  小潤澤

对于我们的10x数据上游分析,主要靠cellranger

拆分bcl

安装bcl2fastq

这是它的官网:https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
我们可以参照上面的安装过程
我们一般下载这一个,然后新建一个文件夹,拖到自己的工作站上


那么在一个新的文件夹下
#新建build文件夹
mkdir build
#新建install文件夹
mkdir install

#解压
unzip bcl2fastq2-v2-20-0-tar.zip
tar -xvzf bcl2fastq2-v2.20.0.422-Source.tar.gz
#进入build文件夹
cd build
#配置
/...../bcl2fastq/src/configure --prefix=/home/username/.../bcl2fastq/install

#安装(在build文件夹下)
make
make install

其中,build是你配置的文件夹,install是你安装的文件夹,解压后的bcl2fastq是存放源的文件夹
如果安装过程出错了,那可能是有些依赖库你的系统上没有,那么缺哪个就安装哪个就可以了

如果嫌麻烦的同学可以利用conda安装

conda install -c dranew bcl2fastq

然后添加到环境里即可

cellranger安装(V3)

安装地址:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

按照官网上安装即可
解压后,这里我偷了个懒,把bin/bcl2fastq这个二进制可执行文件拷贝到了cellranger-3.1.0/cellranger-cs/3.1.0/bin/下



这样就不用加到环境里面了

文件下载

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/mkfastq#example_workflows


下载测试的地址如上
作为测试,可以先下载bcl文件
wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl

接下来是csv文件
接着就可以拆分了

cellranger mkfastq --id=tiny-bcl \
                     --run=tiny_bcl \
                     --csv=cellranger-tiny-bcl-simple-1.2.0.csv

--id表示输出文件路径,
--run表示输入文件路径,
--csv即为你下载illumina公司的csv文件
输出结果在tiny-bcl/out/fastq_path/下


整合参考基因

首先我们从Ensemble上下载对应物种的gtf文件和fasta文件

#filter
cellranger mkgtf gtf filtered.gtf 
                --attribute=gene_biotype:protein_coding \
                --attribute=gene_biotype:IG_LV_gene \
                --attribute=gene_biotype:IG_V_gene \
                --attribute=gene_biotype:IG_D_gene \
                --attribute=gene_biotype:IG_J_gene \
                --attribute=gene_biotype:IG_C_gene \
                --attribute=gene_biotype:TR_V_gene \
                --attribute=gene_biotype:TR_D_gene \
                --attribute=gene_biotype:TR_J_gene \
                --attribute=gene_biotype:TR_C_gene

cellranger mkgtf genomic.gtf genomic_coding.filtered.gtf 
                --attribute=gene_biotype:protein_coding

过滤的目的是除去一些假基因等一些在分析中没有什么用的注释,代码中的gtf指的是过滤前的gtf文件,filtered.gtf 指的是过滤后的gtf文件
建立索引

cellranger mkref 
    --genome=GRCz11_coding 
    --fasta=/.../GRCz11_genomic.fa 
    --genes=/.../genomic_coding.filtered.gtf

其中,
--genome是输出的文件,
--fasta是你下载参考基因组文件,是以fa结尾的文件,
--genes是过滤的gtf文件
貌似我在操作中--genome这个参数加不了绝对路径,不清楚是怎么回事

count计数

cellranger主要是利用STAR进行比对,然后在分选计数
在这里千万注意文件的命名,这里对命名要求是真的严格
命名:
存放测序数据fastq文件的文件夹的命名一定要和测序数据的文件命名相同,比方说



测序数据命名如上图,那么我们取_S1前面的TES42来做该文件夹的命名,如下图所示


cellranger count 
   --id=output_test 
   --transcriptome=/.../GRCz11_coding/ 
   --fastqs=/.../TES42/ 
   --sample=TES42 
   --force-cells=8000

其中:
--id是你输出路径文件夹,
--transcriptome是你之前过滤的参考基因组文件夹,
--fastqs是测序文件路径,写到存放的文件夹即可,
--sample要和你存放测序文件夹的文件名相同,
--force-cells是你的复现细胞数和实验设计有关

这是运行完的文件:



那么我们的下游分析(monocle和Seurat)的输入文件在哪里呢?
在out/filtered_feature_bc_matrix文件夹下



那么这三个就是下游分析的input:

参考:https://www.jieandze1314.com/post/cnposts/pre-learn-scrna-3/

上一篇下一篇

猜你喜欢

热点阅读