bulk-RNAseq

UCSC Genome Browser 使用之本地数据上传CyV

2022-06-15  本文已影响0人  嘿嘿嘿嘿哈

最近尝试在线使用UCSC Genome Browser进行转录本的可视化,原以为它会和本地IGV的使用差不多,没想到在上传数据这一步就遇到了瓶颈——Genome Browser不能直接上传数据,而是要存放在一个它可以访问的地址上.....



本节概览:
1.进入 UCSC Genome Browser
2.使用CyVerse Discovery Environment存储数据
3.使用Github存储数据
4.大文件上传的另一种解决思路——仅选取部分数据上传
5.UCSC Genome Browser中可视化

下面就记录一下如何将数据上传到免费网站进行Genome Browser的可视化。
以下示范选取小鼠的mm10基因组,上传bam(与bai)和bigwig文件到CyVerseGithub网站中存储,从而进行可视化(大家如果有更好方法,欢迎在评论区留言讨论)

1. 进入 UCSC Genome Browser


2. 使用CyVerse Discovery Environment存储数据

①常规方式上传

登录网址:https://cyverse.org/,注册并登录,进入Discovery Environment并启动,


选择左侧DATA图标并进入HOME区域登录,点击右上角Upload即可上传本地数据


However,这种方式上传数据很慢很不稳定,看不到上传进度还经常容易中断出错,因此数据较大时多采用Cyberduck软件上传的方法。

② Cyberduck软件上传数据到cyverse

软件下载及使用方法如下:https://cyverse.atlassian.net/wiki/spaces/DS/pages/241869843/Using+Cyberduck+for+Uploading+and+Downloading+to+the+Data+Store


3. 使用Github存储数据

同样,在https://github.com/注册登录后,选择上传文件到你创建的目录下即可,但是上传的文件大小会有限制(25mb),一般是无法满足我们要求的,如下所示:

但是使用Github的一个问题是:国内有时候不稳定,甚至连登录有时候都很困难。。。。。。


4. 大文件上传的另一种解决思路——仅选取部分数据上传

(在此感谢Jimmy老师提醒!如果只想看部分基因的情况,其实是没必要上传全部数据的,选取我们想要看的区域即可!)
我们一般得到的bam与bigwig文件都是比较大的(几十到几百mb),上传到上述网站中耗时非常长,但其实我们一般只想观测几个少数几个区域的比对情况,其他区域是不关心的。
因此下面示范在bam文件中仅选取Gapdh和Sox2基因的区域: chr3:34650405-34652461 和 chr6:125161854-125166467,输出到part2_test.bam,生成后续的bam索引文件和bigwig文件,能极大减轻上传数据的压力

samtools view -@ 12 -b SRR3414636.uniq.sorted.bam chr3:34650405-34652461  chr6:125161854-125166467 > part2_test.bam
samtools index -@ 12 part2_test.bam 
bamCoverage -b part2_test.bam  -o part2_test.bigwig

最终生成数据只有几十k大小,瞬间就能upload到CyVerse或Github中了,赞!!!



这几个数据链接我就放在下面不改动了,供大家尝试:

https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam
https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam.bai
https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bigwig

5. UCSC Genome Browser中可视化

通过以上步骤成功上传数据得到链接后,接下来就是在Genome Browser中进行可视化了

载入bigwig文件进行可视化

track type=bigWig visibility=full name="part2_test.bigwig" bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bigwig

载入bam文件进行可视化

track type=bam  visibility=pack  name="part2_test.bam" bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam.bai


参考资料
http://genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html
Github上传大文件(>25MB)教程 - 知乎 (zhihu.com)
GitHub大文件(大于100M)上传_往復不息的博客-CSDN博客_github 大文件
GitHub上传文件大小限制25MB - 简书 (jianshu.com)
生信格式 | bigwig,bw (基因组浏览器绘制)_白墨石的博客-CSDN博客_bigwig文件

上一篇下一篇

猜你喜欢

热点阅读