单细胞测序专题集合单细胞转录组单细胞

单细胞测序scRNA-seq技术学习笔记（二）——生信分析流程思

2019-10-08 本文已影响0人 2576710931dd

本文为学习笔记，总结自网络资料

仅作学习交流用途，严禁用于商业用途
Jupyter Notebook中的程序运行笔记：https://nbviewer.jupyter.org/github/BioAIEvolu/Learning_R/blob/master/scRNA-seq_analyse.ipynb

流程概述

数据下载
数据整理
数据格式：行名是基因名，列名是样例名
质控和数据过滤
过滤掉检测到细胞数目太少，基因太少的数据
PCA分析
传统线性降维方法
优点：运行速度快
TSNE分析
新的非线性降维方法，保留更加有代表性的属性信息，更能体现细胞间的差异
缺点：运行速度慢
找到基因的聚类cluster，将表达相关的基因聚集在一起
Marker基因
类似
注释细胞类型
- 软件
- 文献
- 结合分析经验
细胞轨迹分析
哪些细胞先出现，哪些细胞后出现，分析细胞的分化过程和程度
GO 富集分析和圈图
功能和通路的富集
KEGG 富集分析和圈图
功能和通路的富集

具体操作

一、数据下载

NCBI选择GEO数据库

GEO数据库主页

二、数据整理，得到矩阵

数据整理，得到矩阵

样本基因数目矩阵

三、质控与数据过滤

3.1 质控

质控：小提琴图

去掉游离的点的值
样本量大-->点的跨度大-->可以放宽筛选条件
过滤掉线粒体基因

测序深度vs线粒体百分比

此图中，因为线粒体基因都被过滤掉，所以线粒体基因数为0，测序深度与线粒体百分比没有关系

测序深度vs基因数目
此图显示，基因数目与测序深度呈现正相关关系，相关系数为0.63（相关性较高）
随着测序深度增大，基因数目也会趋向于饱和

3.2 数据过滤

基因在所有细胞的表达量波动情况

基因在所有细胞的表达量波动程度
- 由于我们后续需要做PCA和TSNE的聚类分析，所以需要筛选出那些在所有样品里面表达量波动比较大的基因（红色的点），以便于找出细胞间的差异
- 此处挑选了1500个基因，并标注好波动最大的前10个基因的名称

四、PCA主成分分析

PCA主成分分析

得到每个PC（主成分）相关对的基因
- 绝对值越大相关性越大
- 这里是挑选了那些与主成分相关性较大的基因也就是每个PC所对应的基因

数据降维：

1500个基因对应着1500维的是数据，需要降维后才能画图
降维到20个PC
降维后的到PC1和PC2等
做综合性的考虑。例如对PC1和PC2，画一个PC1和PC2关系图

PCA图
每个点代表一个细胞
一种颜色代表一个样品

绘制PCA热图

PCA热图

PCA热图

基因在所有细胞里面的表达谱情况
黄色代表高表达的情况

由于TSNE聚类分析时需要筛选PC，需要对PCA得到的结果进一步筛选，但是PCA又不能选择地太少（会使得全部基因的信息量丢失），选择一个折中的方法，通过图形选择那些p-value小于0.05的关键PC：

此处选择了p-value小于0.05的20个PC

PCA主成分分析主成分的p值

每一条曲线代表一个主成分PC，相当于一个基因的集合
1500个PC降维到20个PC
20个PC进行数据转换，就能代表原本1500个PC的信息量
p值：实际PC中的一个关键基因的数目与理论PC中可能存在的基因数目的差异
所以，PC的p值越小，意味着得到的关键基因越多，即这个PC越重要——p-value越小，PC越重要

五、tSNE聚类分析

tSNE聚类分析

对细胞进行聚类，总共有15个cluster
其中cluster 10为B细胞（后续做差异找Marker、GO、KEGG都是针对这个cluster）

每个样品的cluster
表格展示哪些细胞属于哪些cluster

聚类热图：

聚类热图

黄色代表高表达，cluser的黄色区域对应的基因代表着此cluster的Marker基因
只是对最主要的Marker基因进行了图形化

六、marker基因

寻找marker基因
Marker基因的判定标准：

调整后的p值＜0.05
avg_logFC的绝对值 > 0.5 （至少1.5倍的差异）
- 一般转录组分析的时候，avg_logFC的绝对值 > 1
- 由于此处是肿瘤细胞，avg_logFC的绝对值 > 1得到的基因数目会太少，所以需要avg_logFC的绝对值 > 0.5得到差异基因

此处针对以cluster10，即B细胞的差异（Marker）基因进行分析：
选出两个基因进行绘图（其中横坐标为各个cluster，纵坐标为对应基因的表达水平）

marker基因的小提琴图

绘制聚类图展示查看差异情况：

注意B细胞聚类cluster10的位置，红色方向表示基因的高表达

marker基因在各个cluster的散点图

绘制气泡图展示查看差异情况：

marker在各个cluster的气泡图

其中，横坐标代表cluster10的Marker基因，纵坐标代表各个cluster
结论：

前五个基因，在cluster10中的表达是上调的

后五个基因，在cluster10中的表达是下调的

七、注释细胞类型

这部非常难

注释细胞类型

注释的方法：

软件（一个R包）预测
结合文献
结合被测序的细胞、组织、肿瘤类型进行注释

可能有多个cluster被注释上相同的细胞类型

八、细胞轨迹分析

这步也非常难

对cluster做的细胞轨迹分析

对注释出的细胞类型做的细胞轨迹分析

其中：

每个点代表一个细胞
一种颜色代表一种聚类
数字表示分支点

需要根据软件预测、经验、文献、对这个细胞测序过程的理解，判断哪个细胞可能在前面分化出来

有经验的情况的分析思路：
根据前面打的研究、经验，知道哪种细胞在肿瘤中最先出现，预判细胞轨迹的起点（树根）

没有经验，不知道细胞出现先后的分析思路：
猜测：细胞种类单一、数量较少 ---分化---> 细胞种类多，数量多

九、GO功能富集

对Marker基因进行GO分析

基因名字转换基因id

基因名字转换基因id

此处挑选了cluster10 B细胞的Marker基因进行分析
在原本Marker基因的基因名、avg_logFC的两列情况下，增加一列基因转换的ID entrezID，以便于后面R包的使用
GO富集分析
得到的结果，都富集到B细胞、跟免疫相关的功能通路也很多，说明实验和分析都做得很好
红色越深，富集越显著
柱子长度或圆圈大小，代表基因的数目
放一个图即可
圈图
GO圈图
发文章的时候用左边的图更直观

十、KEGG通路富集

KEGG通路富集

柱状图横坐标代表基因数目，气泡图表示基因的比例
气泡图中圆圈大小，代表富集到每个通路上基因的数目
纵坐标代表通路名称
颜色越红，在该通路上富集的显著性越高
KEGG圈图：
KEGG圈图

学习自“生信自学网”等网站

上一篇下一篇

猜你喜欢

热点阅读