单细胞测序(一)
从一篇文献学起:
Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
参考:http://www.bio-info-trainee.com/3758.html
一.文章背景知识:
单细胞测序的两个方向:细胞足够多或基因足够多的。这篇文章细胞数不到1000,但基因数目较为可观。
1.一些名词解释:
Cancer-associated fibroblasts (CAFs) / tumor-supportive CAF
(肿瘤相关成纤维细胞)
extracellular matrix (ECM)
epithelial-to-mesenchymal transition (EMT)(转化).
MMTV-PyMT mouse model(自发肿瘤小鼠模型)
single cell differentially expressed genes (SCDE)
reproducibility-optimized test statistic (ROTS)
differentially expressed genes/significantly differentially expressed (SDE)
log2(RPKM + 1)
2.单细胞转录组的两个问题和两个方法:
单细胞转录组两个问题和方法
生信自学网参考
可以看到SMART-seq2和10x genomics是互相独立的技术。本文使用成熟的单细胞转录组( Smart-seq2 )手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。
Smart-seq2是目前最常用的单细胞转录组技术,最低能够以单个细胞或10pgRNA为模板,通过设计Oligo(dT) VN Primer作为逆转录引物,利用逆转录酶的模板转换(Template-switching)活性,在cDNA的3’端添加一段接头序列,通过该接头序列进行后续PCR扩增,可以获得全长cDNA扩增产物,进行基因表达检测、差异分析、可变剪接、融合基因等遗传调控信息分析。
Smart-seq2单细胞组分析流程图
3.降维:
两种降维模式
PCA属于投影,是一种最常用的线性降维方法,当线性降维将高维中不相似的数据点放在较低维度时,会尽可能多地保留原始数据的差异,因此导致这些不相似的数据相距甚远;RunPCA()
tSNE/UAMP属于流行学习。tSNE(2008)将数据点之间的相似度转换为概率。它兼顾了高维降维+低维展示,降维后的那些不相似的数据点依然可以放得靠近一些,保证了点既在局部分散,又在全局聚集。后来开发的UMAP(2018)相比tSNE又能展示更多的维度。 RunUMAP()
二.文章流程
1.比对
比对
tips1用STAR软件进行比对,并用外部已经定量过的RNA(spike-in counts)去校正自己的基因表达量(endogenous gene counts)。
tips2共通过2个批次做了768个细胞。
tips3
图g是reads的数量,在极端值(蓝色)部分可以过滤掉。
图h为uniquely mapping reads%,是通过fastqc质控得到的,蓝色部分为质控比对不合格的。
图i是exon mapping reads%,是外显子mapping的百分比,过滤掉30%以下的(reads集中在线粒体等区域)
图j是RPKM,过滤掉表达量低的
图k是correlation,删除掉相关性较低的(通常不这么做)
2.评估
评估
评估变异系数和混杂因素
图a是变异系数和表达量的关系
图bc是用PCA和tSNE评估混杂因素
3.数据分析
分群、差异分析、细胞周期、细胞群基因的GO分析
数据分析
单细胞分群即定义:
主要分析是tSNE,然后挑选first 150 SDE genes绘制热图 - 并且进行 gene ontology (GO) 注释来确定不同组的细胞功能:
tSNE
上图为716个CAF的tSNE图,下边的每一个基因都是根据这个tSNE图来画的:
基因tSNE
既然很明确的分成4组,那就可以进行差异分析,挑选差异基因绘制热图:
差异基因热图
接下来GO分析注释细胞亚群的功能。(不放图了)
4.结合公共数据库
结合TGCA