第一篇:RNA-Seq analysis in MeV
2019-02-05 本文已影响6人
Yeyuntian
=============
1. 作者介绍
=============
作者介绍1
这是一个位于波士顿的癌症研究中心与英国牛津大学以及哈佛大学公共卫生学院共同完成的文章。该文刊登的期刊是Bioinformatics,属于生物信息学中的顶级期刊,影响因子5~6分。
作者介绍2本文引用次数为不是很多,但是该文章的作者有一篇文章引用次数达到1400次。
=============
2. 全文翻译
=============
摘要
Abstract概述:
RNA-Seq是一个非常强大到令人兴奋的方法,并让高通量测序来测定RNA转录本丰度变得十四两拨千斤(使具有杠杆效果,leverage)。然而通过RNA-seq所产生的数据量非常巨大,但是对于生物学者友善的分析工具缺十分的稀少(sorely lacking,相当于very lacking)。MultiExperienment View (MeV)这个软件基于Java并且通过只管的图形界面让进一步分析基因表达数据成为了可能。在本文中我们介绍对MeV的一个加强版本,可以用于研究RNA-Seq。我们也对一些MeV中几个针对于RNA-Seq的方法,并明确沿着这种数据类型和传统基因表达数据类型的差异。这个工具包括对基于已报到的方式对源计数文件和RPKM或FPKM的自动转化以及差异表达检测和基因功能注释分析。
获取方式:
MeV 4.7 版本的以Java编写并且遵从开源Artistic License 2.0协议。并且在 http://mev.tm4.org 网页上托管了一个用户说明以及一个简短的快速开始。
前言
前言1RNA-seq采用高通量深度测序的方式记录转录组(在一个细胞中完整的转录本组)。这个技术相比之前所用的技术如DNA阵列(DNA microarrays)更受欢迎,因为其具有更高的灵敏度以及更小的背景噪音以及可以检测到位置的转录本。然而然而基于测序技术带来的碱基层面的解析度(the base pair level resolution )产生大量的数据,而这些数据对于桌面电脑来讲是非常难以处理和分析的。大量的数据输出给很少接触大型计算机(big iron computer )和缺少必要的编程技巧来处理数据的生物学家来讲却是一个困扰。
问题的第一部分已经由生物信息社群予以解决并得到处理并且可以储存以及下载大量的测序源数据,对其进行定量和比对到基因组。Bowtie和RMAP工具将RNA-seq的Reads回帖到参考基因组中或将其拼接成连续的序列。这个方法迅速标准化。以其他的概要的步骤进行自动处理这些步骤,并生成预比对的表达数据,如同DNA阵列一样这些数据通常以转录本-样品矩阵的格式存在。
前言2这种压缩格式第四了原始转录本的序列信息,但是提供了大部分科学家用于解决他们实验问题的基础数据并且避免了由基因组变异趋势来辨识个体的困难(这句话完全不能理解)。
第二个挑战如同之前让科学家施用DNA 阵列一样,生物学家设计实验需要易于使用的工具来查看数据。RNA-Seq虚假施用需要一个稳健的数据分析方法、数据分析工具以及可以辨识在数据中趋势的方法、与实验表现相关的转录本和在实验系统中心的机制。
前言3在此,我们报道了一个MeV基因表达数据分析工具的改进。MeV是一个基于Java的易于使用的图形界面的桌面电脑工具其中包含了扩展的分类和数据与可视化功能。MeV已经被下载超过32000此在过去的一年中,现在的半杯是基于接近10年的发展。我们将MeV改进以用于RNA-seq分析,包含了扩展的MeV数据模型用于和现有的转录组分析数据相接轨。此外,针对于RNA-seq数据分析我们特别开发了一些列的公开算法。每个转录本的原始测序数被自动转化为RPKM值,反之也同样的并且RPKM的方式依据Mortazavi等人的方法。当社区发展出新的RNA-Seq标准后,该应用框架让添加其他数据形式变得容易。
特点
特点1最新的MeV已经可以上传、注释、可视化以及分析RNA-Seq数据。在图1 中展示了一个RNA-Seq工作流程。在MeV的构架中最显著的一个变化是对数据模型的适应,可以导入Reads counts 、均一化的转录本表达水平、转录本长度和读长文库大小。新的RNA-Seq数据导入支持载入从简单的、Tab-分割格式的、明确记录在用户说明中的数据类型。在这个过程中,MeV自动注释这些数据、载入转录本或基因层面的注释通过UCSC或Ensembl 数据库。能够载入离散计数水平的数据和表达数据(如RPKM和FPKM)。
图1特点2
一旦数据被导入和注释,就可以通过已有的工具或者新的解决特定的RNA-Seq问题的模块进行研究,比如转录本长度和丰度。基于DESeq、DGESeq以及EdgeR三种用于研究差异表达的R包可共使用。对于使用者来讲,阵列到测序数据的转变是可以实现无缝连接的引物基于同样的用户使用界面的模块被构建,这也使得MeV的方法广泛接受。既然大部分的科学家都对了解在实验组间基因表达的功能差异,我们也创造了基于GOSeq的模块用于富集基因列表。这些算法让MeV对于RNA-Seq特有的数据偏好性能够处理(account for 可以对某件事情进行解释),如转录本长度在更多的reads被回帖到更长的转录本中,以及选择偏差对于高表达转录本的过度检测。
此外用户可以应用现在的标准分析功能在表达分析中,如层次聚类,k-means聚类,t检验、方差分析、EASE和其他更多的。热图展示、基因表达可视化和表给罗列等方法均被包含在标准的MeV数据表达中。基因层面的注释和合适的数据库相连如Entrez和Gene Ontology,也可以通过一些简单的超链接获取,感兴趣的基因(Gene of interest)可以被标注并和其他的进行比较以及被储存为基本的基因识别表或采用Tab分割的数据来储存表达数据以用于其他的研究。
特点3.png结论
结论.png我们已经公开发布了MeV 4.7版本,这个版本带有一些新的功能是的可以导入和研究RNA-Seq数据在基于已有的方法通过添加4个新的RNA-Seq特异的模块。这些新的特征的出现,科学家可以引用聚类、差异表达分析和可视化分析来研究一类新的数据类型。这写莫苦熬构建成了同样简单的用户界面因此是的MeV对于所有的计算机基础的研究者(of all computer literacy level)。这个测试版本已经被下载2200此软件,并提供了了一些只管的需求在社区中。
这个发型也提供了一个研究矿在针对于更深入的RNA-Seq分析工具的发展,和基于R模块的简单增加。MeV团队期待包括更多的特别针对于RNA-Seq数据分析的模块。
=============
3. 文章梳理
=============
本文首先提到RNA-Seq是一个相比于以前的方法更好的方法(罗列了几个有点)但引出了一个问题——数据量大需要具有编程基础的处理才能搞定。因此进一步解析了RNA-Seq带来的两个问题(一个是数据储存与获取,另外就是分析数据和实验表现的相关性研究。
接下来就是提到MeV在之前用于阵列分析,并且说在本文我们将介绍MeV通过改进而应用于RNA-Seq的数据分析的研究。
然后就是将在MeV新的版本中增加了哪些功能(包括注释、基因差异表达、数据表达可视化和聚类分析等)
最后提出了MeV在整个RNA-Seq分析中的位置是属于下游分析的作用,并且点了几个在实验分析中常常用到的问题并表明MeV是可以解决的。
=============
4. 点评展望
=============