第19周-单细胞转录组探索CRC病人的一致性

2018-11-19  本文已影响57人  小梦游仙境

单细胞转录组探索CRC病人的一致性

文章是:Reference component analysis of single-cell transcriptomes elucidates cellular heterogeneity in human colorectal tumors. Nat Genet 2017 May;49(5):708-718. PMID: 28319088

单细胞转录组,使用的是GPL11154Illumina HiSeq 2000 (Homo sapiens) ,数据都上传到了:GSE81861

BioProject PRJNA323703
SRA ERP016958

既有病人的单细胞转录组数据,同时也有细胞系的数据做验证。

上游测序数据没有必要重新下载分析了,可以直接使用作者上传的表达矩阵:

Supplementary file Size Download File type/resource
GSE81861_CRC_NM_all_cells_COUNT.csv.gz 3.2 Mb (ftp)(http) CSV
GSE81861_CRC_NM_all_cells_FPKM.csv.gz 4.7 Mb (ftp)(http) CSV
GSE81861_CRC_NM_epithelial_cells_COUNT.csv.gz 2.5 Mb (ftp)(http) CSV
GSE81861_CRC_NM_epithelial_cells_FPKM.csv.gz 4.0 Mb (ftp)(http) CSV
GSE81861_CRC_tumor_all_cells_COUNT.csv.gz 4.3 Mb (ftp)(http) CSV
GSE81861_CRC_tumor_all_cells_FPKM.csv.gz 7.9 Mb (ftp)(http) CSV
GSE81861_CRC_tumor_epithelial_cells_COUNT.csv.gz 3.6 Mb (ftp)(http) CSV
GSE81861_CRC_tumor_epithelial_cells_FPKM.csv.gz 6.5 Mb (ftp)(http) CSV
GSE81861_Cell_Line_COUNT.csv.gz 13.1 Mb (ftp)(http) CSV
GSE81861_Cell_Line_FPKM.csv.gz 28.9 Mb (ftp)(http) CSV
GSE81861_GEO_EGA_ID_match.csv.gz 14.4 Kb (ftp)(http) CSV

作者认为全文最重要的是开发了一个挖掘细胞类型的算法:reference component analysis (RCA) 优于其它现有的算法。可以把cancer-associated fibroblasts (CAFs)继续分成两个类别。对比的算法包括:

使用 adjusted Rand index (ARI) 指标来评价各个聚类算法的优劣。结果发现自己开发的RCA表现超常!!!

image

当然了,还在 Tirosh, I. et al. Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNA–seq. Science 352, 189–196 (2016). 文章的数据里面做了验证。

背景知识

肿瘤异质性很重要,单细胞转录组测序很厉害,以前的研究根据单细胞转录组表达矩阵进行分类的算法不够好,所以他们开发reference component analysis (RCA) , 而且 Colorectal cancer (CRC) 疾病非常严重,需要探索。

根据细胞系单细胞表达数据探索算法

630个细胞的表达数据,过滤后剩下561个,这里使用Fragments per kilobase per million reads (FPKM)来进行表达定量。因为其上游处理走的是TOPHAT2+CUFFLINKS流程。

单细胞过滤策略

rate of exonic reads (ROER) 需要大于5%

number of detected genes (NODG) 需要大于1000, 基因的FPKM ≥1才能算被检测到了。

Exonic reads (ER) 要大于0.1Million

管家基因: TFRC, ACTB, RPLP0, PGK1, GAPDH, LDHA, NONO, B2M, GUSB and PPIH.

RCA算法细节

首先从 BioGPS数据库里面下载两个数据集: HumanU133A/GNF1H Gene Atlas and the Primary Cell Atlas ,从中挑选 A total of 4,717 genes were selected as features for GNF1H and 5,209 genes were selected for the Primary Cell Atlas. 还使用了 WGCNA 算法。

image

还使用了一些其它公共数据:TCGA, GSE14333, the PRECOG database, and GSE33113, GSE37892 and GSE39582 来验证单细胞转录组得到的基因集(The 'fibroblast-like' signature )是否能显著的区分CRC病人的生存情况。

image

需要了解一些细胞类型的 known markers

做成了一个R包供使用:RCA R package, https://github.com/GIS-SP-Group/RCA.

(文章转自jimmy的2018年阅读文献笔记)

生信基础知识大全系列:生信基础知识100讲
史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布
如果需要售后:点我
如果需要入门资料大全:点我

上一篇 下一篇

猜你喜欢

热点阅读