Q:功能基因组学?
功能基因组学(Functional genomics)是对基因组中基因与基因间区域如何参与不同生物学过程的研究。在实际过程中,我们经常从“全基因组”角度(即包含所有或多个基因/区域)出发,希望将其范围缩小到要分析的候选基因或区域列表。
简言之,功能基因组学就是研究基因产物在特定情况下(如特定发育阶段或疾病)的动态表达,并尝试将开发将我们了解的基因型(功能)与表型联系起来的模型。
根据愤懑关注的重点,可以分为以下几种特定的方法:
- DNA水平(基因组学和表观基因组学)
- RNA水平(转录组学)
- 蛋白质水平(蛋白质组学)
- 代谢物水平(代谢组学)

下面着重学习下功能基因组学常见的分析方法:
1.Microarray
微阵列芯片(Microarray)是DNA探针的集合,探针通常是“喷墨印刷”在载玻片(Agilent)上或原位合成(Affymetrix)的挂衣核苷酸链(oligo)。来自目标样品的标记单链DNA或反义RNA片段在特定调节下与DNA微阵列杂交,随后检测特定探针的杂交量。杂交量与样品中的核酸片段数量成正比。
Microarray可分为:单色和双色。

双色芯片可以在一定程度上抵消偏色效应

技术重复和生物学重复

整理分析流程

1.1 特征提取(Feature extration)
特征提取就是将扫描的到信号转为gene IDs,样品名称和其他可用信息的过程。

此过程通常用芯片制造上提供的软件进行操作,生成原始文件(raw data: unprocessed)这些数据通常是binary或text格式。可以用
oligo
,affy
, limma
和lumi
进行分析。
1.2 质量控制(Quality Control)
在Expression Atlas中,使用ArrayQualityMEtrics
R包进行。只要关注芯片信号强度,PCA聚类和密度估计等信息。

1.3 标准化(Standardization)
芯片的标准化主要用于控制技术差异,同时保留生物学差异。
标准化的流程是基于:
实验组中大多数基因相对于对照组不会差异表达
常见的标准化方法:
- Expression Atlas(Affymetrix)→
oligo::rma()
-
Agilent单色芯片:
limma::normalizeQuantiles()
1.4 差异分析
差异分析是为了鉴定不同条件下表达不同的基因,此时应进行多次测试的校正。(因为对少量样品进行数千次比较时,会导致假阳性的增加)
常见的是应用limm包进行差异分析
options(digits = 4) #保留4位下数
library(limma)
group_list <- c(rep("normal",101), rep("tumor",101))
group_list <- factor(group_list, levels=c("nromal", "tumor")
design <- model.matrix(~factor(group_list)) #分组信息
fit <- lmFit(data,design)
fit <- eBayes(fit)
deg <- topTable(fit,coef = 2,adjust="BH",number = Inf) %>%
arrange(logFC) %>%
rownames_to_column("id")
2. RNA-seq
RNA测序是高通量测序技术对cDNA分子的应用,通过从RNA反转录获得。

2.1 建库(library)
cDNA文库的构建取决于所用RNA的类型,使用总RNA可以检测ncRNA和mRNA,但是可能进行相应处理(如消耗核糖体RNA)以检测低丰度的转录本。PolyA+ RNA富集适合真核生物的mRNA纯化。

另一个考虑因素是是否生成保留原始RNA转录方向的链特异性文库,这对于鉴定翻译或非编码RNA非常重要。
2.2 测序(sequencing)
从扩增的文库中获得核酸序列,以高通量的方式对每个分子进行测序,从一端(单端测序)或两端(成对端测序)获得数百万个短读序列+相关的质量评分(如FASTQ文件)。这个通常由核心机构或外部公司完成。

2.3 质量控制
- 去接头
- 去除低质量reads
- uncalled bases
- 过滤污染物(不是源生物产生的序列)。重要的是要检查所有样本的序列质量是否相近,并丢弃异常值。
常用软件: - FastQC:质量评估
- Trimmomatic:去除PCR引物,衔接子序列,修剪得分较低的碱基和低质量的N碱基。
2.4 比对和排序

2.5 Quantification
用GTF(gene transfer format)作为参照,获取RPKM/FPKM/HTSea-count文件。
2.5 差异分析
常用DESeq2、edgeR差异分析。

参考链接:
Functional genomics II Common technologies and data analysis methods