Q：功能基因组学？

2021-04-11 本文已影响0人高大石头

功能基因组学（Functional genomics）是对基因组中基因与基因间区域如何参与不同生物学过程的研究。在实际过程中，我们经常从“全基因组”角度（即包含所有或多个基因/区域）出发，希望将其范围缩小到要分析的候选基因或区域列表。
简言之，功能基因组学就是研究基因产物在特定情况下（如特定发育阶段或疾病）的动态表达，并尝试将开发将我们了解的基因型（功能）与表型联系起来的模型。
根据愤懑关注的重点，可以分为以下几种特定的方法：

DNA水平（基因组学和表观基因组学）
RNA水平（转录组学）
蛋白质水平（蛋白质组学）
代谢物水平（代谢组学）

功能基因组学

下面着重学习下功能基因组学常见的分析方法：

1.Microarray

微阵列芯片（Microarray）是DNA探针的集合，探针通常是“喷墨印刷”在载玻片（Agilent）上或原位合成（Affymetrix）的挂衣核苷酸链（oligo）。来自目标样品的标记单链DNA或反义RNA片段在特定调节下与DNA微阵列杂交，随后检测特定探针的杂交量。杂交量与样品中的核酸片段数量成正比。
Microarray可分为：单色和双色。

单色和双色芯片

双色芯片可以在一定程度上抵消偏色效应

双色芯片

技术重复和生物学重复

重复

整理分析流程

芯片分析流程

1.1 特征提取（Feature extration）

特征提取就是将扫描的到信号转为gene IDs，样品名称和其他可用信息的过程。

特征提取
此过程通常用芯片制造上提供的软件进行操作，生成原始文件（raw data: unprocessed）这些数据通常是binary或text格式。可以用oligo，affy, limma和lumi进行分析。

原始数据文件格式

1.2 质量控制（Quality Control）

在Expression Atlas中，使用ArrayQualityMEtricsR包进行。只要关注芯片信号强度，PCA聚类和密度估计等信息。

质量控制

1.3 标准化（Standardization）

芯片的标准化主要用于控制技术差异，同时保留生物学差异。
标准化的流程是基于：

实验组中大多数基因相对于对照组不会差异表达

常见的标准化方法：

Expression Atlas（Affymetrix）→ oligo::rma()
Agilent单色芯片: limma::normalizeQuantiles()

1.4 差异分析

差异分析是为了鉴定不同条件下表达不同的基因，此时应进行多次测试的校正。（因为对少量样品进行数千次比较时，会导致假阳性的增加）
常见的是应用limm包进行差异分析

options(digits = 4) #保留4位下数
library(limma)
group_list <- c(rep("normal",101), rep("tumor",101))
group_list <- factor(group_list, levels=c("nromal", "tumor")
design <- model.matrix(~factor(group_list)) #分组信息
fit <- lmFit(data,design)
fit <- eBayes(fit)
deg <- topTable(fit,coef = 2,adjust="BH",number = Inf) %>%
  arrange(logFC) %>%
  rownames_to_column("id")

2. RNA-seq

RNA测序是高通量测序技术对cDNA分子的应用，通过从RNA反转录获得。

RNA-seq流程

2.1 建库（library）

cDNA文库的构建取决于所用RNA的类型，使用总RNA可以检测ncRNA和mRNA，但是可能进行相应处理（如消耗核糖体RNA）以检测低丰度的转录本。PolyA+ RNA富集适合真核生物的mRNA纯化。

配对末端测序和比对

另一个考虑因素是是否生成保留原始RNA转录方向的链特异性文库，这对于鉴定翻译或非编码RNA非常重要。

2.2 测序（sequencing）

从扩增的文库中获得核酸序列，以高通量的方式对每个分子进行测序，从一端（单端测序）或两端（成对端测序）获得数百万个短读序列+相关的质量评分（如FASTQ文件）。这个通常由核心机构或外部公司完成。

FASTQ文件

2.3 质量控制

去接头
去除低质量reads
uncalled bases
过滤污染物（不是源生物产生的序列）。重要的是要检查所有样本的序列质量是否相近，并丢弃异常值。
常用软件：
FastQC：质量评估
Trimmomatic：去除PCR引物，衔接子序列，修剪得分较低的碱基和低质量的N碱基。

2.4 比对和排序

比对和排序

2.5 Quantification

用GTF（gene transfer format）作为参照，获取RPKM/FPKM/HTSea-count文件。

2.5 差异分析

常用DESeq2、edgeR差异分析。

RNA-seq数据分析
参考链接：
Functional genomics II Common technologies and data analysis methods