单细胞测序scRNA-seq技术学习笔记(二)——生信分析流程思
2019-10-08 本文已影响0人
2576710931dd
- 本文为学习笔记,总结自网络资料
- 仅作学习交流用途,严禁用于商业用途
Jupyter Notebook中的程序运行笔记:https://nbviewer.jupyter.org/github/BioAIEvolu/Learning_R/blob/master/scRNA-seq_analyse.ipynb
流程概述
- 数据下载
-
数据整理
数据格式:行名是基因名, 列名是样例名 -
质控和数据过滤
过滤掉检测到细胞数目太少,基因太少的数据 -
PCA分析
传统线性降维方法
优点:运行速度快 -
TSNE分析
新的非线性降维方法,保留更加有代表性的属性信息,更能体现细胞间的差异
缺点:运行速度慢
找到基因的聚类cluster,将表达相关的基因聚集在一起 -
Marker基因
类似 -
注释细胞类型
- 软件
- 文献
- 结合分析经验
-
细胞轨迹分析
哪些细胞先出现,哪些细胞后出现,分析细胞的分化过程和程度 -
GO 富集分析和圈图
功能和通路的富集 -
KEGG 富集分析和圈图
功能和通路的富集
具体操作
一、数据下载
NCBI选择GEO数据库GEO数据库主页
二、数据整理,得到矩阵
数据整理,得到矩阵样本基因数目矩阵
三、质控与数据过滤
3.1 质控
质控:小提琴图- 去掉游离的点的值
- 样本量大-->点的跨度大-->可以放宽筛选条件
-
过滤掉线粒体基因
测序深度vs线粒体百分比
此图中,因为线粒体基因都被过滤掉,所以线粒体基因数为0,测序深度与线粒体百分比没有关系
测序深度vs基因数目 - 此图显示,基因数目与测序深度呈现正相关关系,相关系数为0.63(相关性较高)
- 随着测序深度增大,基因数目也会趋向于饱和
3.2 数据过滤
基因在所有细胞的表达量波动情况- 基因在所有细胞的表达量波动程度
- 由于我们后续需要做PCA和TSNE的聚类分析,所以需要筛选出那些在所有样品里面表达量波动比较大的基因(红色的点),以便于找出细胞间的差异
- 此处挑选了1500个基因,并标注好波动最大的前10个基因的名称
四、PCA主成分分析
PCA主成分分析- 得到每个PC(主成分)相关对的基因
- 绝对值越大 相关性越大
- 这里是挑选了那些与主成分相关性较大的基因 也就是每个PC所对应的基因
数据降维:
-
1500个基因对应着1500维的是数据,需要降维后才能画图
-
降维到20个PC
-
降维后的到PC1和PC2等
-
做综合性的考虑。例如对PC1和PC2,画一个PC1和PC2关系图
PCA图 -
每个点代表一个细胞
-
一种颜色代表一个样品
绘制PCA热图
PCA热图
- 基因在所有细胞里面的表达谱情况
- 黄色代表高表达的情况
由于TSNE聚类分析时需要筛选PC,需要对PCA得到的结果进一步筛选,但是PCA又不能选择地太少(会使得全部基因的信息量丢失),选择一个折中的方法,通过图形选择那些p-value小于0.05的关键PC:
PCA主成分分析 主成分的p值此处选择了p-value小于0.05的20个PC
- 每一条曲线代表一个主成分PC,相当于一个基因的集合
- 1500个PC降维到20个PC
- 20个PC进行数据转换,就能代表原本1500个PC的信息量
- p值:实际PC中的一个关键基因的数目与理论PC中可能存在的基因数目的差异
- 所以,PC的p值越小,意味着得到的关键基因越多,即这个PC越重要——p-value越小,PC越重要
五、tSNE聚类分析
tSNE聚类分析- 对细胞进行聚类,总共有15个cluster
-
其中cluster 10为B细胞(后续做差异找Marker、GO、KEGG都是针对这个cluster)
每个样品的cluster - 表格展示哪些细胞属于哪些cluster
聚类热图:
- 黄色代表高表达,cluser的黄色区域对应的基因代表着此cluster的Marker基因
- 只是对最主要的Marker基因进行了图形化
六、marker基因
寻找marker基因Marker基因的判定标准:
- 调整后的p值<0.05
- avg_logFC的绝对值 > 0.5 (至少1.5倍的差异)
- 一般转录组分析的时候,avg_logFC的绝对值 > 1
- 由于此处是肿瘤细胞,avg_logFC的绝对值 > 1得到的基因数目会太少,所以需要avg_logFC的绝对值 > 0.5得到差异基因
此处针对以cluster10,即B细胞的差异(Marker)基因进行分析:
选出两个基因进行绘图(其中横坐标为各个cluster,纵坐标为对应基因的表达水平)
绘制聚类图展示查看差异情况:
注意B细胞聚类cluster10的位置,红色方向表示基因的高表达
marker基因在各个cluster的散点图
绘制气泡图展示查看差异情况:
其中,横坐标代表cluster10的Marker基因,纵坐标代表各个cluster
结论:
- 前五个基因,在cluster10中的表达是上调的
- 后五个基因,在cluster10中的表达是下调的
七、注释细胞类型
这部非常难
注释细胞类型
注释的方法:
- 软件(一个R包)预测
- 结合文献
- 结合被测序的细胞、组织、肿瘤类型进行注释
可能有多个cluster被注释上相同的细胞类型
八、细胞轨迹分析
这步也非常难
对cluster做的细胞轨迹分析
对注释出的细胞类型做的细胞轨迹分析
其中:
- 每个点代表一个细胞
- 一种颜色代表一种聚类
- 数字表示分支点
需要根据软件预测、经验、文献、对这个细胞测序过程的理解,判断哪个细胞可能在前面分化出来
有经验的情况的分析思路:
根据前面打的研究、经验,知道哪种细胞在肿瘤中最先出现,预判细胞轨迹的起点(树根)
没有经验,不知道细胞出现先后的分析思路:
猜测:细胞种类单一、数量较少 ---分化---> 细胞种类多,数量多
九、GO功能富集
对Marker基因进行GO分析
基因名字转换基因id
基因名字转换基因id- 此处挑选了cluster10 B细胞的Marker基因进行分析
- 在原本Marker基因的基因名、avg_logFC的两列情况下,增加一列基因转换的ID entrezID,以便于后面R包的使用
GO富集分析 - 得到的结果,都富集到B细胞、跟免疫相关的功能通路也很多,说明实验和分析都做得很好
- 红色越深,富集越显著
- 柱子长度或圆圈大小,代表基因的数目
- 放一个图即可
圈图
GO圈图
发文章的时候用左边的图更直观
十、KEGG通路富集
KEGG通路富集- 柱状图横坐标代表基因数目,气泡图表示基因的比例
- 气泡图中圆圈大小,代表富集到每个通路上基因的数目
- 纵坐标代表通路名称
- 颜色越红,在该通路上富集的显著性越高
KEGG圈图:
KEGG圈图
- 学习自“生信自学网”等网站