Genomic Data Science- JHU Course
Introduction
Galaxy是一个公开的基因组学分析平台,包含了一系列流程化分析工具,针对质控、组装、注释以及包括Chip-seq、RNA-seq、变异鉴定等常见的组学流程pipeline。
Galaxy平台地址:https://usegalaxy.org/
Galaxy 101
地址https://galaxyproject.org/tutorials/g101/,给新手一个小项目进行练习来熟悉galaxy的操作,通过101来熟悉Genomic invervals、Workflows以及Annotation, sharing and Publishing的一些操作。
Genomic Intervals
现在101上面的练习题和视频里好像不太一致,按照视频里的项目任务来说,练习项目的目的是为了找到人类22号染色体上哪个coding exon包含的repeats数目最多。
打开https://usegalaxy.org/ ,界面如下:
![](https://img.haomeiwen.com/i20808655/92ddda0bfe47725e.png)
可以看到Galaxy的界面主要由左边的工具栏和右边历史栏构成(可以注册账户,拥有私人的历史记录任务空间,最好注册一下,之前没注册发现历史记录好像只能保存一个工作)。
tools点击get data,找到UCUS main:
![](https://img.haomeiwen.com/i20808655/6eb38a2b2a592af3.png)
转到UCSC界面如下,注意在position那里选择chr22,输出格式bed,输出到Galaxy
![](https://img.haomeiwen.com/i20808655/a32e9c4401b0736b.png)
然后点击get output,弹出页面如下,由于我们要研究的是coding exons,所以勾上,然后点send query to galaxy
![](https://img.haomeiwen.com/i20808655/46e740c5efccb39c.png)
![](https://img.haomeiwen.com/i20808655/e1ca438fb09990b9.png)
点击眼睛那个icon可以打开展示
![](https://img.haomeiwen.com/i20808655/a9b135a18574928d.png)
接下来我们继续在22号染色体上找repeats,也是按照同样方式打开UCSC,group改成repeats,
![](https://img.haomeiwen.com/i20808655/f38752f5da2d3e50.png)
![](https://img.haomeiwen.com/i20808655/4985dc1e3c204ea4.png)
然后就发现有两个工作记录了
点击左边tools栏的operate on genomic intervals里的Join,将两个数据集合并
![](https://img.haomeiwen.com/i20808655/62afb31ca1a417fa.png)
然后按照如下方式进行内连接
![](https://img.haomeiwen.com/i20808655/625ae0bc4be6516a.png)
然后就可以看到连接好的数据集,
![](https://img.haomeiwen.com/i20808655/8ea75bcdc0a4c1da.png)
接下来我们找到Join, Substract and Group里的Group选项,来为我们进行计数
![](https://img.haomeiwen.com/i20808655/53dd469635ef5f30.png)
Group by cloumn那里设置Column:4,因为这个是唯一的exon标识符,最主要的是Operation选项里的设置,如下,就可以计数了,
![](https://img.haomeiwen.com/i20808655/5984d2038e658895.png)
然后就有了个4号任务,点击查看就展示了对每个外显子中的repeat的计数
![](https://img.haomeiwen.com/i20808655/c5475ffd2d2c8293.png)
你还可以用join将这个4号数据集和1号join一下,这样就包含了位置信息,用tools里Text Manipulation下的cut工具可以选择要展示的列,这里就不再做演示,最后下载下来可以用excel啊什么的看下哪个最多。
Workflows
workflow这个功能可以让你保存你的工作流程,比如上述exon和repeats的合并然后计数,我们保存工作流之后,下次我们需要做exon和其他features的合并,就不需要再从头来了,按下图操作:
![](https://img.haomeiwen.com/i20808655/d33f5dbad94c7c41.png)
![](https://img.haomeiwen.com/i20808655/1e22913d399f601a.png)
![](https://img.haomeiwen.com/i20808655/e12c40f3dca835bd.png)
点击edit可以对每个流程的标签改名
![](https://img.haomeiwen.com/i20808655/d4288c9fee02e42c.png)
右上角保存后
![](https://img.haomeiwen.com/i20808655/618868fa99f24fc3.png)
![](https://img.haomeiwen.com/i20808655/e17d546a9d16d79e.png)
接下来我们按照类似的方式得到chr22上的cpg岛信息
![](https://img.haomeiwen.com/i20808655/c0a0137787a130f7.png)
点击左下角All workflows,然后更改下参数,就可以重新进行类似的计数了!
![](https://img.haomeiwen.com/i20808655/b056aa86b1736f5d.png)
得到结果如下,就是Coding exon和cpg岛的overlap计数
![](https://img.haomeiwen.com/i20808655/be66ac3cb0325aa5.png)
Annotation, Sharing, and Publishing
首先是Annotation,你可以看到在基本所有记录最右边上有两个图标,一个像铅笔一个像气泡,点击它们可以加Tag annotation和history annotaion,如下:
![](https://img.haomeiwen.com/i20808655/0ae1caa60a65c971.png)
通过对Tags的标注,我们可以很方便的在搜索历史里面对tag搜索来找到我们要的记录。
接下来是Share和publish,依次点击
![](https://img.haomeiwen.com/i20808655/c4b6e42487d76c30.png)
![](https://img.haomeiwen.com/i20808655/ee9af1ae934ffd91.png)
![](https://img.haomeiwen.com/i20808655/7e1a91988e30a751.png)
这样就可以将历史记录分享给特定的其他用户。
同样也可以用链接方式分享
![](https://img.haomeiwen.com/i20808655/1984e2a992011f34.png)
然后就可以在数据共享里面看到我们的链接上传到公共数据库里了
![](https://img.haomeiwen.com/i20808655/b58733f11b1c92f0.png)
当然感觉非常献丑就赶紧关了。。。。实际上在数据共享里面,所有的公开的东西都非常有用,还有最近对于covid-19的研究的workflow、原始数据,这个我觉得是非常棒的!
![](https://img.haomeiwen.com/i20808655/39142c024f75f4cd.png)
如果你要对你的分享页面添加描述页,你可以点开账号管理下的我的页面,对你的page添加描述,来方便别人的查看和了解,这里不做过多阐述。
Quality Control
在Galaxy上面也集成了一系列包括FastQC等质控工具,可以很方面的使用。
首先我们可以从数据库里得到一个数据集来进行练习
![](https://img.haomeiwen.com/i20808655/9e2718bece7be918.png)
搜索illumina,点击IDEA Datasets
![](https://img.haomeiwen.com/i20808655/633d3a804c600dba.png)
然后选第一个添加到当前历史
![](https://img.haomeiwen.com/i20808655/c0b66dc1a2c0779d.png)
接下来点击FastQC,执行即可
![](https://img.haomeiwen.com/i20808655/bcb9910398ac8ca4.png)
然后就可以看到生成了网页版本的统计和raw data数据统计信息,点小眼睛查看,展示的内容和本地FastQC得到的结果是一样的(各个结果的意义,请移步FastQC官网,或者google、简书一下)
![](https://img.haomeiwen.com/i20808655/96449d7f17ab3aad.png)
对于低质量序列的过滤,galaxy也拥有trimmomatic、cutadapt、直接trim等一系列的工具,都包含在FASTQ这个工具栏下面
![](https://img.haomeiwen.com/i20808655/29bbabaa5f681511.png)
Chip-Seq Analysis with MACS
Chip-seq主要实验目的在于研究与抗体蛋白结合的DNA region,这个抗体可以是修饰的Histone的,也可以是转录因子的。
其中一个分析的主要步骤就是Call peaks,就是看主要DNA的富集区域,这里有个很常用的工具叫MACS,在galaxy中也很容易使用它。
首先我们获取数据
![](https://img.haomeiwen.com/i20808655/dc67c687876bc45a.png)
然后用bowtie2比对
![](https://img.haomeiwen.com/i20808655/eddf79d6b01017b8.png)
用MACS2 callpeak
![](https://img.haomeiwen.com/i20808655/7fb5e6b02cee12bd.png)
得到的原始结果我们还可以用UCSC展示
![](https://img.haomeiwen.com/i20808655/0ae6fffcd288fdfe.png)
后续部分
后面还介绍了一些RNA-seq和本地化Galaxy的东西,由于感觉RNA-seq现在各种跑流程的教程很多很多,也没必要学习这种网页的。。。所以就略过