转录组人生几何?

配对差异分析与非配对差异分析的区别

2021-08-30  本文已影响0人  生信阿拉丁

作者:oct
审稿:童蒙
编辑:amethyst

配对差异分析经常应用在肿瘤配对样本的差异分析中。在肿瘤研究中,通常需要进行肿瘤组织与相邻正常组织之间的差异分析,以便研究肿瘤组织的特异性。那么在差异分析时,配对和非配对的差异分析有何区别,该如何选择?经查阅文献,一篇名为Differential Expression of miRNAs in Colorectal Cancer: Comparison of Paired Tumor Tissue and Adjacent Normal Mucosa Using High-Throughput Sequencing的文章或许会给大家带来一些新的思路。

背景介绍

MicroRNA (miR) 是长度为 18-25 个核苷酸的小型非编码 RNA 分子,于 1990 年代初首次在秀丽隐杆线虫中发现。它们通过改变不同细胞过程(如分化、增殖、存活和凋亡)中的基因表达来维持体内平衡 。据估计,超过 10% 的编码人类基因的蛋白质可能受这些机制的调控 。miRBase 数据库中记录的人类 miR 数量超过一千 。研究表明,miRs 可能在不同的人类癌症中失调,因此充当肿瘤抑制基因或癌基因。它们可能是诊断或预后的潜在生物标志物,并作为癌症特异性治疗的潜在靶点。

材料与方法

01 样本选择

使用 Illumina 高通量测序技术研究 miR 表达的肿瘤特异性变化从8个患者的手术标本中收集正常粘膜和肿瘤组织,从而产生一组独特的成对样品,7个患者的肿瘤细胞含量大于60%,其中一例为非典型神经内分泌肿瘤 (NET),其他为腺癌。


02 数据分析

1 数据处理:获得高通量测序的fastq数据,使用FASTX-Toolkit去接头。测序数据与 hg18 基因组参考比对,允许一个错误匹配。使用 miRanalyzer 进一步处理测序数据。该工具允许从 miRBase数据库中识别经过验证的 miR,并包括用于预测新 miR 的机器学习算法。
2 miR差异分析:使用edgeR与Deseq进行miR差异分析,两种工具都利用负二项式分布对每个miR的读取计数进行建模,并实现了对计数进行归一化的方法。

主要结果

通过韦恩图可以看出,在两种方法中,有37个miR在配对和非配对分析中共同检出,有 81 个 miR 在非配对分析中未鉴定,证明非配对差异分析相比配对分析更保守,它不需考虑患者之间的基线差异。


差异分析R代码

1、加载R包和数据

library(DESeq)
library(edgeR)
setwd("/Users/Julian/Documents/Prosjekt/PLOS/Dataset/")

2、数据处理

targets <- read.delim(file="Targets.txt", stringsAsFactors=FALSE) #读取数据
cts <- readDGE(targets) 
countsTable <- cts$counts #读取count
colnames(countsTable) <- c("T1", "T2", "T3", "T4", "T5", "T6", "T7", "T8", "N1", "N2", "N3", "N4", "N5", "N6","N7", "N8") #列为样本
conds <- c("Ne","Ac","Ac","Ac","Ac","Ac","Ac","Ac","No","No","No","No","No","No","No","No") #分组信息
cds <- newCountDataSet(countsTable, conds) #构建cds对象
cds <- estimateSizeFactors(cds) #归一化
cds <- estimateVarianceFunctions(cds) #方差估计

3、使用 DESeq 计算正常黏膜 (No) 与腺癌 (Ac) 中失调的 miRs

resNoAc <- nbinomTest(cds, "No", "Ac") #对负二项模型进行T检验
resNoAcSig <- resNoAc[resNoAc$padj<.1,] #设置显著阈值,padj值小于0.1
resNoAcSig <- resNoAcSig[order(resNoAcSig$padj),] 
subset(resNoAcSig, select=c(1,5,6,8))

4、使用 DESeq 计算正常黏膜 (No) 与神经内分泌肿瘤 (Ac) 中失调的 miRs

resNoNe <- nbinomTest(cds, "No", "Ne")
resNoNeSig <- resNoNe[resNoNe$padj<.1,]
resNoNeSig <- resNoNeSig[order(resNoNeSig$padj),]
subset(resNoNeSig, select=c(1,5,6,8))

5、方差函数拟合

diagForT <- varianceFitDiagnostics (cds1, "T")
smoothScatter( log10(diagForT$baseMean), log10(diagForT$baseVar) )
lines( log10(fittedBaseVar) ~ log10(baseMean), diagForT[ order(diagForT$baseMean), ], col="red" )
abline(0,1,lty=2)

6、在配对的正常粘膜与腺癌中使用 edgeR 计算失调的 miR

targetsPaired <- read.delim(file="TargetsPaired.txt", stringsAsFactors=FALSE)
d <- readDGE(targetsPaired)
colnames(d) <- c("T2", "T3", "T4", "T5", "T6", "T7", "T8", "N2", "N3", "N4", "N5", "N6", "N7", "N8")
patient <- factor(c(2, 3, 4, 5, 6, 7, 8, 2, 3, 4, 5, 6, 7, 8)) #设置配对信息,相同数字为配对样本
design <- model.matrix(~patient + d$samples$group)
rownames(design) <- rownames(d$samples)
design[,8] <- c(1,1,1,1,1,1,1,0,0,0,0,0,0,0) # 设置分组信息
colnames(design)[8] <- "tumor"
d <- estimateGLMCommonDisp(d, design)
glmfit.d <- glmFit(d, design, dispersion = d$common.dispersion)
lrt.d <- glmLRT(d, glmfit.d, coef = 8)
options(digits = 4)
topTags(lrt.d, n=118)

7、上调/下调 miR 统计

sum(lrt.d$table$logFC > 0)
sum(lrt.d$table$logFC < 0)
top <- topTags(lrt.d,n=118)
sum(top$table$logFC > 0)
sum(top$table$logFC < 0)

总结

参考资料

  1. edgeR: differential expression analysis of digital gene expression data;
  2. http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#can-i-use-deseq2-to-analyze-paired-samples
  3. Hamfjord J, Stangeland AM, Hughes T, Skrede ML, Tveit KM, Ikdahl T, Kure EH. Differential expression of miRNAs in colorectal cancer: comparison of paired tumor tissue and adjacent normal mucosa using high-throughput sequencing. PLoS One. 2012;7(4):e34150. doi: 10.1371/journal.pone.0034150. Epub 2012 Apr 17. PMID: 22529906; PMCID: PMC3328481.;
  4. Roukos DH (2010) Novel clinico-genome network modeling for revolutionizing genotype-phenotype-based personalized cancer care. Expert Rev Mol Diagn 10: 33–48.
上一篇下一篇

猜你喜欢

热点阅读