TCGA肿瘤数据库知识图谱视频课程学习笔记生信学习小教程收藏

TCGA视频课程笔记(上)

2019-04-30  本文已影响171人  小梦游仙境

TCGA-101-课程介绍-需要哪些背景知识

基于TCGA28篇教程

掌握以下基础知识:

概念、研究范围、数据来源、数据存储、数据格式、癌症相关背景知识

数据挖掘前提:R语言编程基础

TCGA-102-课程导读-如何使用我的github代码

jmzeng1314/tcga_example

以KIRC的miRNA实战举例:也可应用在其他测序方式的数据

1.下载github代码到自己电脑

2.通过“KIRC.Rproj”定位到当前的工作环境

3.setwd("scrips/")(代码都位于'scrips')

4.安装包,再library('')载入,失败时重新安装即可。

5.另外数据库(GDC、RTCGA、Xena)也可拿到表达矩阵,推荐Xena

6.差异分析的中间结果都存储在Rdata这个文件夹里,load可看到

7.有三种R包得到的结果(DESeq_DEG、edgeR_DEG、DEG_limma_voom)

8.miRNA不认识的基因名可去找miRNA命名方式

9.step02:三种R包的比较结果

10.step03-bath-logRank:表达矩阵只要tumor,临床信息去掉NA,名称简化,age分成了group

11.step04-batch-coxp:校正gender、age、stage后,group是否依然有差异性。此包可画森林图:每个基因的风险因子及p-value。

TCGA-103-数据库大有作用-不仅仅是灌水

生物信息学文献阅读笔记

现有文章和公共数据库做比较,自己感兴趣的基因在什么通路有作用,在公共数据库做验证,避免做更多实验。

TCGA大作用:癌症肿瘤相关数据,致力于解决人类癌症的基础问题,理解多组学数据如何和自己的数据做比较。

第08周-头颈癌:通过表达谱分类:非负矩阵分解

第15周-单细胞转录组

第25周-2433乳腺癌

第01周-探究为何一个TNBC对gefitinib:kmplot数据库

第09周-细胞因子相关基因和细胞周期相关基因是有关系的,下载TCGA的数据,自己数据中相关的数据在TCGA是否有相关性

第12周-TCGA表达量看共表达情况、TCGA查询两个基因相关性;KRAS基因突变;需要了解somatic mutation和germline mutation相关概念;找到哪些基因在哪些样本中突变,接下来可以把这些样本过滤出来。

第13周-台湾OSCC

第14周-结合TCGA数据画主成分分析

第18周-

第21周-GSVA、METABRIC做生存分析。高表达基因的病人死的比较快-就有意义

第25周-有表达量就可以分型、通路

第26周-韩国人乳腺癌数据自己170个病人

第29周-FGFR3-TACC3基因融合,目前没有数据能下载到融合信息,但有一个融合基因数据库

TCGA-201-背景介绍基网页工具大全

TCGA官网-publication列表

最重要有6家单位

tCGA Platform Code:HG-U133_plus_2

最重要了解多组学数据是什么形式:可变剪切

并不是所有数据都能下载,原始数据不能下载,须申请根据自己的癌症背景,我们能拿到3、4 级结果拷贝数结果、sometic mutation等

1.测序数据>比对BWA>去PCR重复>质量控制校正:得到bam文件

2.放在IGV

3.QC包括

从TCGA我们可以得到哪些数据?

一些统计原理和软件用法可教

癌症背景知识重要,癌症具有异质性

TCGA关于乳腺癌所发的重要文章如下

image

TCGA可以拿到哪些数据如下

image

网页工具大全

image

TCGA-202-其它数据库介绍

TCGA重点是癌症背景知识:各个癌症发的各个文章的介绍

有参组学的NGS数据分析的异同点分析腾讯视频

其他相关数据库:GTEx和CCLE

image image

注意tpm\reads值,值得探索

image image

CCLE:告诉你每种CCLE对应哪种细胞系?

有些文章会把TCGA、GTEx、CCLE合并在一起分析。

TCGA-203-使用Xena网页工具

UCSC Xena> 在线工具,可探索TCGA纳入的30多种癌症的所有病人的所有类型的数据,并不需要编程

1.TCGA Breast Cancer (1247samples)1000个病人,测了多种组学数据>

![] image

每个基因的所有数据在这里都有

![] image image image image image image

搜索到一篇文章,以CRC(colon and rectal cancer)生存分析要加sample type的筛选标准

image image image image

看methylation和表达量的相关性

image image image

教程地址

以上为表达量数据,可以有很多组合,比如突变

PANCAN:所有癌症在一起,多一个属性叫癌症属性。癌症种类合在一起。

再举个🌰

image image image

在R里画

rm(list=ls())
options(stringsAsFactors=F)
a=read.table('denseDataOnlyDownload -1.tsv',fill = T)
a=na.omit(a)#去掉na值
head(a)
cor(a[,5:37])#head(a)后看到甲基化和探针为第5列到最后一列-37,cor甲基化相关性值

再回到网页工具,选择array中基因芯片表达量

image image
上一篇下一篇

猜你喜欢

热点阅读