收入即学习【Life Science】Sequencingmetagenomic

盘点宏转录组分析方法

2019-09-28  本文已影响0人  胡童远

导读

1. 宏转录组概念:

2. 宏转录组分析

一、Leimena-2013

1. 文章:
A comprehensive metatranscriptome analysis pipeline and its validation using human small intestine microbiota datasets.
BMC Genomics. 2013

2. 核心算法/工具:

3. 数据库:

4. 核心步骤:

  1. 用SortMeRNA和默认的rRNA数据库去除16S,23S,18S,28S的rRNAs序列。
  2. 用BLASTN和SILVA、NCBI数据库去除剩下序列中的细菌、古菌、真核生物的tRNA/rRNA序列。
  3. 去除Illumina Phix control序列和adaptor序列。
  4. 用MegaBLAST 和BLASTN进行mRNA与NCBI数据库(含3979个细菌和古细菌的全基因组或基因组草图)的比对确定mRNA序列的物种发生起源(科/属水平)。
  5. 将至少50%比对到基因ORF的序列定义为“基因/编码序列”,少于50%的序列定义为“非编码/基因间序列”,然后用BLAST 、KEGG自动注释服务器KAAS、COG数据库、KEGG数据库进行编码序列的功能注释和代谢分析。
  6. 调整BLASTN的参数,用NCBI蛋白数据库、MetaHIT蛋白序列数据库、人类小肠宏基因组数据库、KEGG、COG进一步挖掘4)中“Unassigned mRNA序列”的功能。

二、HUMAnN2

1. 文章:
Species-level functional profiling of metagenomes and metatranscriptomes.
Nat Methods 2018

2. 核心算法/工具:

3. 数据库:

4. 核心步骤:

  1. 用KneadData、Bowtie2、Trimmomatic和hg38 mRNA数据进行序列过滤,去除低质量碱基、序列和宿主序列。
  2. 用MetaPhlAn2和ChocoPhlAn泛基因组数据库进行物种分类鉴定。
  3. 用MinPath、DIAMOND和UniRef、MetaCyc数据库进行基因家族、功能和通路的注释。

三、MetaTrans

1. 文章:
MetaTrans: an open-source pipeline for metatranscriptomics.
Sci Rep. 2016

2. 核心算法/工具:

3. 数据库:

4. 核心步骤:

  1. 用SortMeRNA和SILVA v11527、Rfam28、Genomic tRNA database数据库进行rRNA/tRNA清除。
  2. 用Fastq-Join将有overlap的双端序列merge成更长的序列。用FragGeneScan进行基因预测,丢弃非编码基因的序列,降低计算成本。
  3. 使用SOAP2和MetaHIT、M5nr数据库进行功能注释。
  4. 使用UCLUST对1)中舍弃的rRNA序列进行聚类,使用SOAP2、QIIME和Greengenes数据库进行微生物分类学分析。

四、SAMSA

1. 文章:
SAMSA: a comprehensive metatranscriptome analysis pipeline.
BMC Bioinformatics. 2016

2. 核心算法/工具:

3. 数据库:

4. 核心步骤:

  1. 使用Trimmomatic去除原始测序数据中的低质量碱基、序列和测序接头。
  2. 使用FLASH对齐(align)的功能将质控后的双端序列拼接成一条更长的序列(文章中提到约32-54%的双端序列能成功对齐)。
  3. 使用NCBI RefSeq和MG-RAST进行序列注释。MG-RAST包括几个步骤,包括通过SolexaQA进行初始序列质量控制检查,通过FragGeneScan进行基因注释,通过QIIME的uclust进行90%一致性的氨基酸序列聚类,然后在每个蛋白质序列聚类上使用sBLAT找到最佳匹配的参考信息。

\color{green}{😀😀原创文章,码字不易,转载请注明出处😀😀}

上一篇下一篇

猜你喜欢

热点阅读