10X单细胞(10X空间转录组)数据分析之细胞过滤那些事
2021-05-02 本文已影响0人
单细胞空间交响乐
hello,大家好,今天已经是五一假期的第二天,本人呢,哪也去不了,只好在家歇着,所以呢,给自己找点事做,本人93年,单身,现居天津武清,女孩子有没有想谈恋爱了,可以联系我,联系方式是。。。。。。。咳咳,错了,再来,今天我们就来聊一聊10X单细胞和10X空间转录组细胞过滤的那些事,我们来回顾一下:
过滤1、线粒体过滤
在我们的分析结果里,线粒体过滤应该是绕不开的一个话题,我们在分析的时候,通常会拿到如下的质控图(比较极端的一张作为示例):
NPC1_nGene_nUMI_mito_HB.png我们这里先来讨论线粒体,上面的图其实相对比较极端,但还不是最极端的,首先我们要明白一下线粒体含量高代表了什么,我听过很多单细胞专家的讲解,其中有一个共识,那就是线粒体过高,代表了细胞的状态变差,用大白话讲,细胞状态差,膜完整性遭到破坏,普通的mRNA处于游离状态,会游离出来,而线粒体基因处于线粒体细胞器之内,不容易游离出来,从而导致了线粒体基因的占比较高。这里呢,我们首先要了解一些基础知识:
- 线粒体基因转录和翻译的场所 :线粒体,对比于核转录组,翻译在细胞质。
- 线粒体参与的生物学功能,能量供给,自由基生成和细胞凋亡,其中后两种功能都跟细胞状态差有关。
所以无论从哪个角度看,线粒体高都不是一个正常的现象,那么就会有第一个问题:
(1)问题1、线粒体占比多高算细胞状态差???
我们细胞本身就需要能量,所以必然含有一定的线粒体基因,那么如何挑选细胞状态差的呢???在单细胞刚兴起的时候,对于线粒体比例的认识不足,一律按照线粒体的阈值为5%来进行过滤,时至今日,很多深刻的问题来到了我们的身边,一刀切肯定是不对的,给大家分享一些常识:
- 不同类型的细胞线粒体含量实不一样的,其中肌肉细胞线粒体含量最高可达50%,肿瘤区域的正常细胞线粒体含量有时也在30%以上
- 目前统计文章的阈值,在5%~30%之间不等,那么,我们应该选多少???
- 目前文献中使用频率最高的阈值是10%
我们以上图为例,线粒体的阈值应该是多少??10%合适么???很显然,不合适,直观的判断阈值应该在15%~20%之间,那么,到底应该选择多少呢???我们画一个直方图看看:
图片.png很符合预期,在10%~20%之间有明显的断崖下降,那么这个地方,个人建议阈值设置为10%或者15%,最好的阈值应该是15%。这里我们总结一下线粒体阈值判断的原则就是,对线粒体含量进行排序之后的异常区域进行去除,具体情况具体分析,不能搞一刀切。
过滤2,红细胞过滤
我们再来一张图作为分析示例
NPC2_nGene_nUMI_mito_HB.png首先我们要讨论一个问题,红细胞要不要过滤??如果我的研究重点就是红细胞,当然不能过滤,如果不是呢???这里就需要知道,红细胞一旦过滤了,会造成什么影响呢???
影响有以下几个地方
1、高变基因的变化,不过滤高变基因含有红细胞基因,过滤掉就没有这类基因了。
2、PCA成分的变化,PCA讲过很多次了,轴的旋转肯定收到基因变化的影响,去除了一些高变基因,填补了一些次高变基因,会增加噪音,影响降维、聚类和分群。
3、阈值的选择,目前文献中明确去除红细胞的很少,所以, 需要相当慎重。
那如果是红细胞污染呢??很多时候,我们在实验制备之前需要确实是否进行过裂红处理,来减少红细胞污染的影响,所以呢,要根据自身的情况具体分析。
个人建议,正常情况下, 不需要过滤红细胞。
3、多细胞(双细胞)的去除
不知道大家做分析有没有去除过双细胞,一般来讲,一般不会捕获到双细胞,但是随着通量的增大,很有可能就要出现捕获双细胞的概率了,10X官网介绍了关于双细胞捕获的一些知识,其中捕获一万的细胞量,大约0.7%多是双细胞,这里我们不展开了,关于多细胞去除我分享了很多了,大家可以参考文章DoubletFinder,python分析单细胞数据,多细胞去除的模块,多细胞去除之三,R包DoubletDecon,很多时候,我们可以直观判断,以下图为例:
NPC2_nGene_nUMI_mito_HB.png直观判断的话,基因数高于6000的明显是异常点,需要暂定为双细胞,很多文献都是这样的阈值来筛选双细胞的,但是我们需要注意,双细胞的去除还是要借助专业的软件,个人推荐的软件是Scrublet,效果最好。
4、低基因数量的细胞去除
这个在很多时候我们一般认为一个细胞维持生命至少需要多少个基因,不知道大家把这个阈值设成了多少,参照官网的实例代码是200,个人人为这个值有点低,我们还是以下图为例:
NPC3_nGene_nUMI_mito_HB.png这样的图我们根本无法判断,画一个直方图来看看
图片.png数值太大的关系,无从判断,我们截取一下:
图片.png这个地方看,如果最低基因设置成200,那基本没有过滤,但是大家看图的结果,在500~1000处明显有一个低谷,明显的分界线,所以这里,设置成500也很合适,这个时候就要重点研究一下这个部分的一般特征,这些表达很低的细胞基因都有什么,功能是什么,希望引起大家的注意。那么,如果部分细胞基因数低会有什么影响呢?假设A细胞表达了500个基因,B细胞表达的2000个基因,在进行均一化的时候,A细胞的基因数会扩大20倍,某些基因会明显的放大,而B细胞扩大了10倍,很多假阳性的生物学差异由此诞生,所以大家一定要慎重。
5、多样本整合的过滤问题
首先问大家一个问题,如果单样本过滤分析之后,多样本整合大家还过滤么???如果答案是否,那么恭喜你,你已经掉坑里了,因为单样本阈值的不统一性,把你的数据已经进行了一定的歪曲,很多结果,是假阳性。
如果答案是否,那么你有一定的几率不会入坑,但不保证一定不入坑,举一个简单的例子,正常样本和肿瘤样本的线粒体过滤的问题,如果用统一的阈值,那么恭喜你,你已经进坑了,上面说过了,肿瘤组织的正常细胞线粒体基因的比例会变高,如果用统一的阈值,恭喜你入坑了,可能分析了很多还不知道结果为什么这样,那么,到底,我们应该如何做呢?
结合文献的思路,merge之后统一进行过滤,很多文献是这样的做法,但不代表都是这样,所以说这种方法更稳妥一些,同时阈值会适当调整,以满足样本之间的异质性。其实真正的细胞过滤,也会有一些很深的算法支撑!
所以说,如果进行多样本分析,不如直接做整合分析吧,单样本的分析可以暂时放一放了。
最后提一下关于空间转录组过滤的问题,个人建议,不要过滤,保留最原始的空间位置信息,即使线粒体比例高,也说明具有局部的生物学差异。
生活很好,有你更好,再问一句,有处对象的么??? 祝大家51快乐