10X空间转录组与卷积神经网络(CNNs)
2020-09-08 本文已影响0人
单细胞空间交响乐
相信许多做生物信息学的童鞋来说,空间转录组是最近很火的技术,但是不知道大家发现了没有,我们做空间的分析对于空间位置信息利用的很少,大多数情况我们就是把很多单细胞的分析方法映射于空间,从生物学的角度看, 当然是没有问题的,但是让我们放宽思路,不仅仅局限于生物信息层面,这就是我们接下来分享的技术CNNs.
首先我们来看看什么是CNNs
卷积神经网络(Convolutinal Neural Networks)是非常强大的一种深度神经网络,它在图片的识别分类、NLP句子分类等方面已经获得了巨大的成功,也被广泛使用于工业界,例如谷歌将它用于图片搜索、亚马逊将它用于商品推荐等。
在我们人类眼睛的视野里,我们看到的图片是风景,是人物,是一个地方的展示,但是对于机器而言,机器对于图片的识别就是来源于像素点,机器无法识别我们人类识别的美,只是把图片当成一个一个的数字来进行存储,这两者的区别不仅仅在于格式不同,应用起来会有千差万别。
接下来我们看看CNNs是如何工作的
QQ图片20200908144658.png
如同人类对事物的识别一样,CNNs在卷积的过程中对图片进行特征提取(具体原理很复杂,需要请教数学专业的大牛),而我们这里仅需要知道经过卷积,每一个过滤器就会生成一个维度的图片,也就是经过一个过滤器之后的图片特征。
QQ图片20200908145110.png
接下来的步骤对于小白的我来说,有点难以理解,不过好在数学家们将这样的方法很好的封装了起来,对于这样的技术,我们生信人员主要关注其在10X空间转录组上的应用。
CNNs在空间转录组上的应用
目前的空间转录组,染色图片还是HE染色为主,图像像素强度数据包含可用于诊断疾病(例如癌症分期)的信息特征,但是我们在分析的过程主要是运用空间的基因表达数据情况,很好对空间的图片进行深入的研究(毕竟我们不是计算机专业的嘛~),但是忽略这样的信息就导致我们走向了一个极端,过分的关注基因表达及空间分布,但是在非单细胞分辨率的前提下,这样的分析有些片面,没有与病理学的图片相结合,(另一个极端就是病理学医生通过图片诊断,依据经验来判断病理学特征),而CNNs,可以将图片的信息数字化,以此来弥补分析上的不足。
话不多说,我们来看应用
从图片上解释,一个基因作为一个过滤器,由此提取到该基因的过滤特征,有250个基因,就会有250个过滤后的图片深度,基于这样的机器学习,我们就可以来预测新的图片的特征。
例如这里的预测空间基因的表达特征,不需要进行测序的前提下就可以预测。
QQ图片20200908152120.png
事先对肿瘤特征的细胞进行机器学习的话,那我们就可以对新的肿瘤图片进行疾病细胞的预测,这样的预测对于生物学研究很有意义。
在这里我就不过多的解释了,把文献的链接给大家,如果对于这部分内容想深入学习的话,请“保持愤怒,让王多鱼倾家荡产~~~”。
SpaCell: integrating tissue morphology and spatialgene expression to predict disease cells
Integrating spatial gene expression and breast tumour morphology via deep learning
另外推荐一个研究空间信息很专业的R包spatstat,总之一句话,空间位置信息很重要,我们需要更多的手段来解读这个信息。还是那句话,请“保持愤怒,让王多鱼倾家荡产~~~”。