生信分析工具包数量遗传或生统

使用OSCA进行eQTL分析

2020-08-12  本文已影响0人  只看不写_nathan

Nathan写于20200807。
OSCA(OmicS-data-based Complex trait Analysis)是杨老师2019年发表的用于分析多组学数据复杂性状的软件。


OSCA发表文献

OSCA主要可以做以下几个事情:

00准备工作

eQTL不是一个新奇的分析了,早在12年就有专门针对eQTL的R发表了——MatrixEQTL。虽然MatrixEQTL仍然是现在很多文章是用的软件,但是由于它是R写的,并且输入文件也比较繁琐和复杂,所以我们这次是使用OSCA去做eQTL。
这里先讲明eQTL的几个概念,cis-eQTL和trans-eQTL。cis-eQTL就是某个基因的 eQTL 定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的 mRNA 水平变化;后者是指某个基因的 eQTL 定位到其他基因组区域,表明其他基因的差别控制该基因 mRNA 水平的差异。


用OSCA做eQTL的流程很简单,主要麻烦的地方在输入数据的准备上。准备好数据直接跑osca --eqtl就可以了。

01 Input数据准备

OSCA做eQTL需要两个输入数据,一个是表型数据,这个数据的格式是OSCA独特的BOD格式,另一个就是marker了,这个数据格式官网只说了PLINK二进制格式,其他的格式不知道可不可以。
首先来看一下BOD格式,这个数据格式和PLINK比较相似,也是一个文件名后的三个不同后缀的文件为一个整文件。BOD格式由三个不同内容的格式文件组成,首先是oii格式,这个格式类似于PINK的fam文件,其需要五列信息,family ID,individual ID,paternal ID,maternal ID和性别,其中1为男性,2为女性,0则是代表未知,Missing用"NA"代替。

myeed.oii
其次是opi格式文件,这个文件记录的是转录组的信息,这个文件是一个特殊的文件,这个数据的目的是将loci和基因位置相结合。这个文件包含了五列数据,分别是染色体,probe ID(官网讲这个ID可以使一个外显子或者转录本的ID),物理位置(这个就很费解,不管是转录本还是外显子他的位置都是区域,这怎么定义呢),然后是基因的ID和基因的方向。看一个实例就明白了。
myeed.opi
现在我越来越怀疑,这个位置信息怎么填写,只有一个position的话,怎么知道是cis还是trans呢。发个邮件问一下好啦。
最后一个文件是bod格式的二进制文件。像plink一样,二进制文件我们一般是不可以直接编辑的,osca也同样给出了如何做bod file的命令。
# compile data in binary format from text format
 osca --efile myprofile.txt --methylation-beta --make-bod --out myprofile 
上一篇 下一篇

猜你喜欢

热点阅读