UCSC Genome Browser 使用之本地数据上传CyV
最近尝试在线使用UCSC Genome Browser进行转录本的可视化,原以为它会和本地IGV的使用差不多,没想到在上传数据这一步就遇到了瓶颈——Genome Browser不能直接上传数据,而是要存放在一个它可以访问的地址上.....
本节概览:
1.进入 UCSC Genome Browser
2.使用CyVerse Discovery Environment存储数据
3.使用Github存储数据
4.大文件上传的另一种解决思路——仅选取部分数据上传
5.UCSC Genome Browser中可视化
下面就记录一下如何将数据上传到免费网站进行Genome Browser的可视化。
以下示范选取小鼠的mm10基因组,上传bam(与bai)和bigwig文件到CyVerse或Github网站中存储,从而进行可视化(大家如果有更好方法,欢迎在评论区留言讨论)
1. 进入 UCSC Genome Browser
-
UCSC Genome Browser Gateway:https://genome.ucsc.edu/cgi-bin/hgGateway
-
页面左侧选择物种,右侧选择基因组,点击GO跳转到Genome Browser操作界面
-
点击add custom tracks,进入到添加track的页面
-
此时就需要外部数据存储链接才能进行下一步操作了,在http://www.genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html#Hosting中,UCSC给出了三种可供基因组浏览器访问且免费存储数据的方式:CyVerse Discovery Environment、Github和Figshare
下面展示使用CyVerse Discovery Environment和Github 这两种方法进行上传数据,进行Genome Browser可视化
2. 使用CyVerse Discovery Environment存储数据
①常规方式上传
登录网址:https://cyverse.org/,注册并登录,进入Discovery Environment并启动,
选择左侧DATA图标并进入HOME区域登录,点击右上角Upload即可上传本地数据
However,这种方式上传数据很慢很不稳定,看不到上传进度还经常容易中断出错,因此数据较大时多采用Cyberduck软件上传的方法。
② Cyberduck软件上传数据到cyverse
- 下载Cyberduck:https://cyberduck.io/download/
- 打开Cyberduck后,还需再下载Connective Profile文件进行Cyberduck存储空间配置,弹出以下窗口后填写之前注册的用户名和密码后即可与cyverse空间进行链接https://cyverse.atlassian.net/wiki/download/attachments/241869843/CyVerseDataStore.cyberduckprofile?version=2&modificationDate=1638308565168&cacheVersion=1&api=v2
-
连接成功后,右键即可选择上传本地文件
我在使用这种方式后上传数据的速度最快也只有100kb/s,但是能看到上传进度,连接也更稳定,可以在后台挂着等待其慢慢上传了
-
上传成功后,点击选择相应文件的Public Links即可获取数据链接
3. 使用Github存储数据
同样,在https://github.com/注册登录后,选择上传文件到你创建的目录下即可,但是上传的文件大小会有限制(25mb),一般是无法满足我们要求的,如下所示:
- 如果上传数据的大小超过限制,就需要使用到Git大文件支持库了(Git Large File Storage (LFS) ,可参考以下教程进行:
Github上传大文件(>25MB)教程 - 知乎 (zhihu.com) - 除此之外,将文件上传到Releases中也是另一种解决方法:
GitHub上传文件大小限制25MB - 简书 (jianshu.com) -
上传数据文件成功后,在Github复制数据下载链接
但是使用Github的一个问题是:国内有时候不稳定,甚至连登录有时候都很困难。。。。。。
4. 大文件上传的另一种解决思路——仅选取部分数据上传
(在此感谢Jimmy老师提醒!如果只想看部分基因的情况,其实是没必要上传全部数据的,选取我们想要看的区域即可!)
我们一般得到的bam与bigwig文件都是比较大的(几十到几百mb),上传到上述网站中耗时非常长,但其实我们一般只想观测几个少数几个区域的比对情况,其他区域是不关心的。
因此下面示范在bam文件中仅选取Gapdh和Sox2基因的区域: chr3:34650405-34652461 和 chr6:125161854-125166467,输出到part2_test.bam,生成后续的bam索引文件和bigwig文件,能极大减轻上传数据的压力
samtools view -@ 12 -b SRR3414636.uniq.sorted.bam chr3:34650405-34652461 chr6:125161854-125166467 > part2_test.bam
samtools index -@ 12 part2_test.bam
bamCoverage -b part2_test.bam -o part2_test.bigwig
最终生成数据只有几十k大小,瞬间就能upload到CyVerse或Github中了,赞!!!
这几个数据链接我就放在下面不改动了,供大家尝试:
https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam
https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam.bai
https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bigwig
5. UCSC Genome Browser中可视化
通过以上步骤成功上传数据得到链接后,接下来就是在Genome Browser中进行可视化了
载入bigwig文件进行可视化
- 按以下格式进行编辑,“bigDataUrl=”之后输入数据存放网址链接(注意,所有的输入都是在同一行,不能进行换行);再点击Submit
track type=bigWig visibility=full name="part2_test.bigwig" bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bigwig
-
提交成功后显示以下页面,点击go即可进行可视化
- 在可视化界面下方可点击manage custome tracks继续进行添加要展示的文件
载入bam文件进行可视化
- 在add custome track页面按以下格式同时输入bam和bam.bai文件的存放地址,再进入到基因组浏览器可视化页面
track type=bam visibility=pack name="part2_test.bam" bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam bigDataUrl=https://data.cyverse.org/dav-anon/iplant/home/guchen/part/part2_test.bam.bai
-
此时,经过以上操作,genome browser中已有bam与bigwig两个文件数据,都包含有Gapdh和Sox2基因区域的比对数据,展示如下:
参考资料
http://genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html
Github上传大文件(>25MB)教程 - 知乎 (zhihu.com)
GitHub大文件(大于100M)上传_往復不息的博客-CSDN博客_github 大文件
GitHub上传文件大小限制25MB - 简书 (jianshu.com)
生信格式 | bigwig,bw (基因组浏览器绘制)_白墨石的博客-CSDN博客_bigwig文件