小麦promoter
最近看了个文章介绍plantpan平台预测promoter,好奇自己研究当中那几个基因的promoter到底受什么基因调控。毕竟在不同环境下表达不同,不同部位表达量也不同……搜了下过去的文献,好像并没有对应的报道,于是就尝试了下。
还是老样子,万年不变TBtools起手(没错我就是TBtools吹)。
传说中的我打开我自己首先下载小麦的gf3文件和基因组序列文件
相信这部分多数人还是会的
首先打开ensembl网站
gramene.org或者是plant ensembl都可以,ensembl好像还有个asia版本。无所谓选一个对你来说速度快的就好
对两家来说操作大同小异
ftp://ftp.gramene.org/pub/gramene/CURRENT_RELEASE/gtf/triticum_aestivum/
下载
Triticum_aestivum.IWGSC.45.gtf.gz
ftp://ftp.gramene.org/pub/gramene/CURRENT_RELEASE/fasta/triticum_aestivum/dna/
下载
Triticum_aestivum.IWGSC.dna.toplevel.fa.gz
如果去plant ensembl
也是点download
这里的filter输入triticum aestivum
然后选择这两个就好了
说个题外话,做小麦的就别去ncbi了,因为你大概率拿不到想要的东西。对小麦来说DNA,RNA最好的是gramene.org和plant ensembl这两个,蛋白质是uniprot。有人会问小麦PCR引物设计怎么办,其实有个很实用的网站。因为你直接搜索就能搜到相关的文章,就不给人家分流量了。那个网站可以说是目前最好的小麦PCR引物设计网站,简单易用,自带特异性检查(我会告诉你好多小麦相关文章的引物都不具有特异性么)。
之后就可以通过TBtools提取上游600 bp的序列文件了,当然也有人说是1k,也有人说是2k bp。你们自行斟酌吧,我不懂我只是兴趣使然。
对了,这里需要注意下最好用一家的数据。因为两家的数据不太一致,相对来说 plant ensembl的数据新一点。
拖入对应的文件后你会发现Start按钮是灰的,这时候你需要初始化你的GTF或者GFF3文件,点击initialize即可。
Feature Tag选择CDS,根据基因ID区分,之后再填入上游bp数量即可。
哦对了 别忘记设定好output目录!
之后你就会得到一个带有基因ID和上游600 bp的fasta序列文件了。
序列中有大写小写字母区别是因为我之前是用的是sm(soft masked)所以这里有很多小写字母。具体就摘抄别人的解释了。不纠结……
Ensembl 提供的参考基因组有2种组装形式 (primary,和 toplevel) 和3种重复序列处理方式 (unmasked(dna)、soft-masked(dna_sm) 和 masked(dna_rm))。soft-masked基因组是指把所有重复区和低复杂区的序列用小写字母标出的基因组。
接下来打开Fasta extract功能,input填入之前的上游600 bp fasta文件,选择好需要的output。左下角填入你需要的ID list。由于我们需要查找的是fa文件的表头。所以选定Fasta header pattern match。
当然,如果你不想输出文件可以勾选just show in dialog,然后你可以在弹出的窗口里复制你需要的序列信息。
image.png
至于其他选项,没想到应用场景,不纠结……
接下来可以跳转到plantpan 3.0了。选择promoter analysis。
接下来操作就很明确了
-
填入fasta序列
需要注意一次只能填入一个,如果你需要多个请去这里。操作大同小异,只不过结果会发到你的邮箱。
image.png -
选择物种,可惜只有模式植物,乱选……
-
第三步,不懂……
之后点击search就好了
结果不是很懂,就看到确实匹配到很多TF,具体怎么解释如何应用以后再研究吧。跟之前一个ATAC-seq的数据(SRR9647008)比对发现都有NAC,还挺像回事的……所以,不懂,不纠结……希望对后来人有帮助吧
image.png