多组学分析

零代码合并新版TCGA数据库RNAseq表达谱数据

2022-04-14  本文已影响0人  生信交流平台

上一期,小编已经给大家分享了如何用R代码来合并新版TCGA中的RNAseq表达谱数据

☞R代码合并新版TCGA数据库RNAseq表达谱数据

有些小伙伴反馈代码量太大了,感到无所适从。这一期小编就给大家带来一个零代码合并新版TCGA中的RNAseq表达谱数据的工具(miRNA-seq数据同样适用)。其实针对老版本的TCGA数据库,小编也曾编写过一个类似的工具。大体思路和使用方法也用视频进行了详细的讲解。(注意零代码合并TCGA表达谱数据中的工具,不再适用于新版TCGA数据库中的RNAseq数据,miRNA数据依然适用。)

零代码合并TCGA表达谱数据

在这样一个瞬息万变的社会,不与时俱进,就会被时代抛弃。我们依然采用R的shiny来开发这个合并工具。如果对shiny还不太了解的可以参考下文

Shiny-R语言轻松开发交互式web应用

下面我们看看这个新工具的使用方法

1. 从文末下载得到merge_sequencing_data_new.zip之后,解压得到merge_sequencing_data_new文件夹。这个就是我们的合并工具。

2.打开R,将工作目录改变到merge_sequencing_data_new文件夹中

如果直接使用R,改变工作目录的方法是,点击菜单的文件->改变工作目录

如果使用Rstudio,改变工作目录的方法是session->set working directory->choose directory

3. 运行下面两条命令

library(shiny)
runApp()

这应该是整个工具使用过程中,需要运行的仅有的两条代码吧!注意大小写。R是大小写敏感的,输错了它就不work了。下面是我直接在R里面运行的示意图。

运行之后,你的浏览器应该会自动跳出一个页面。我们来看看更新后的工具。页面的整体风格没有太大变化,只是多了一个RNAseq expression Type参数,专门应对新版TCGA中的RNAseq表达谱数据,根据需要选择相应的RNAseq表达谱类型,默认为STARcounts。

我们就以RNAseq中的STARcounts为例来讲解这个工具的使用,其他的大家可以自己play with it.

4. 准备RNAseq的sample sheet和下载每个样本的counts文件

具体可以参考

TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了

miRNA的文件准本可以参考

如何从TCGA数据库下载miRNA数据(二)

5. 在工具中选择相应的文件和参数

5.1 选择从TCGA数据库里面下载的sample sheet文件,可以不用改名,但是你需要确认里面存的确实是样本信息。类似于这样子的。

5.2 选择Data Type,这里默认为RNAseq。如果是miRNA的数据就选择miRNAs。miRNAs数据可以忽略RNAseq expression Type参数。

5.3 选择RNAseq expression Type,这里默认是STARcounts。这个参数只对RNAseq数据有效。

5.4 选择包含RNAseq数据的文件夹,注意这里选择到RNAseq这一层文件夹就可以了。

不知道这个文件夹怎么来的可以参考

TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了

6. 查看结果,接下来就是见证奇迹的时刻。注意这一步需要等待一段时间,究竟需要多久会因人而异,因数据而异。不是说你长得帅或者漂亮,程序就会跑的快。这个根数据中的样本数成正比,跟你电脑的配置成反比。就是样本数越多,需要时间越久。你电脑配置越高,需要时间越短。

感兴趣可以跟前面R代码合并得到的结果比较一下。

7.下载结果,在表达矩阵的下方,有两个按钮。分别用来下载表达谱矩阵和样本类型文件。

点击下载

RNAseq_STARcounts.txt打开是这样的

RNAseq_sample_type.txt打开是这样的

这两个文件RNAseq_STARcounts.txt和RNAseq_sample_type.txt可以无缝对接到下游的差异表达分析。

R代码TCGA差异表达分析

零代码TCGA差异表达分析

完整工具下载☟☟☟

零代码合并新版TCGA数据库RNAseq表达谱数据

上一篇下一篇

猜你喜欢

热点阅读