生信WGS

基因组文章构成

2019-12-31  本文已影响0人  颤抖吧__小虫子

1.genome survey

2. genome assembly

Assembly

3.genome annotation

基因组注释主要包括四个方面内容 :重复序列注释、基因结构预测 、基因功能注释、 ncRNA注释。


Annotation

1 .重复序列注释
基因组重复序列
TRF(Tandem Repeat Finder);RepeatMasker;RepeatProteinMask;De novo
2 .基因结构预测
de novo预测 使用软件 Augustus;homolog注释(近缘物种);Transcript预测(RNA-seq数据)
使用Glean软件对上述三种证据集进行整合, 然后过滤掉部分基因,得到近缘物种基因结构统计结果。使用BUSCO软件对基因集得完整性进行评估。
3 .基因功能注释
用基因结构预测得到的蛋白质序列与Interpro、 KEGG、 Swissprot、 Tremble等已知蛋白库进行比对。

4 .非编码RNA注释
通过与已知ncRNA 库进行比对

4.Comparative genomics

比较基因组

与其近缘物种进行比较基因组学分析,主要包括基因家族聚类、系统发育树、分歧时间、基因家族的扩张和收缩、 基因家族功能富集等分析。
1.基因家族聚类
使用OrthoMCL软件 来进行基因家族聚类,使用BLASTP软件比对所有物种的蛋白序列, e值阈值设为 1e-5然后用OrthoMCL 软件对所有基因进行聚类。
2.系统发育
使用单拷贝基因家族构建系统发育树。首先使用 MUSCLE 比对单拷贝基因家族的蛋白序列 然后 基于比对结果,将蛋白序列反转录为 CDS 序列 提取每个比对的 4 倍简并位点串联成 super gene 然后 使用PhyML 和 Mrbayes 分别 进行构树 ,获得树形图文件最终使用 Figtree 将树形图文件图像化 。
3.分歧时间
使用PAML中的 MCMCTREE 来估计物种 分歧 时间 使用“ Correlated molecular clock ”分子钟模型和HKY85 ”核 酸 替换模型,校正点分歧时间来自TimeTree http://www.timetree. 。
4.基因家族扩张和收缩
根据基因家族聚类结果和物种间的系统发育关系,使用CAFE 进行基因家族扩张和收缩分析,对这些显著扩张的基因进行 KEGG 和 GO 富集分析.
使用PAML 中的 CodeML 进行正选择分析,选用“branch site” 模型得到受正选择基因(p<0.05).
5.LTR插入时间
逆转录转座子在插入宿主基因组时 两个 LTR 区域 通常是相同的。随着时间的推移,核苷酸的替换会导致两个 LTR 序列 出现 差异。 在核苷酸 替换率已知的情况下 ,可以根据两个 LTR 之间的差异 数估算插入时间,我们使用 LTR_FINDER 寻找基因组中的 LTR 区域,然后使用MUSCLE 进行多序列比对并使用 DISTMAT 计算距离矩阵,最后根据公式 T = K2P/2r 计算 LTR 插入时间 .
6.基因组共线性
我们使用BLASTP 来检测物种间的直系同源基因,选择最优的比对结果,使用 MCscan 识别同源基因区块,然后选择更长的同源基因区块进行下一步作图。
7.全基因组复制分析
由于同义突变在物种进化过程中不受自然选择, 所以在一定时间尺度下,同义突变的速率可以衡量物种进化的时间 也可以用来衡量物种全基因组复制时间发生的时间和次数 。四倍简并位点颠换率 (4dTv )分布 和同义替换率 (Ks) 分布 常被用来进行全基因组复制分析。 首先 使用 BLASTP 来检测物种内的旁系同源基因和物种间的直系同源基因 然后使用 MCscan 软件识别同源基因区块,计算同源基因区块的 4dTv 值,使用KaKs_caculator计算旁系同源基因的Ks值。

上一篇 下一篇

猜你喜欢

热点阅读