biostar-每天一点生物信息学生信log

生信log13|原核基因组分析流程一:常用在线工具使用总结及评价

2021-07-28  本文已影响0人  小周的万用胶囊

笔者有话:写这篇日志的目的在于记录原核基因组下游分析比较基础的步骤,使用这些工具的时候很想吐槽的点,以及一些些数据的解析防止之后自己忘得一干二净的时候还能知道是怎么回事。希望这篇日志能给刚接触生物信息学,需要处理微生物数据的小伙伴提供参考和尽可能地最大限度和合理使用在线注释工具提高一点效率。另外初接触生物信息学分析工具时,常对一些点有疑虑,例如为什么要用多个数据库搜索,数据结果怎么选择,小白可能还会存在一些思维误区,下面会一一阐述和回答(不一定对),有学术性错误请点出,互相学习。

⚠️ 以下分析的数据都是基于原核生物的基因组,真核我不知道。

一些思维误区及疑惑

1、文件准备(提供什么文件?)

建议在prokka的时候先给每条预测出来的蛋白质序列更改好名字,prokka可做到批量命名。

1.1 蛋白质序列数据

image image

PS :每个微生物的每条蛋白质数据最好提前命名好,方便下游分子实验的设计(如引物设计的过程中需要根据蛋白质的序列返回找基因组中的序列。

另附prokka代码一行,可批量命名

prokka --prefix strain_name --addgenes --locustag strain_name --kingdom Bacteria --norrna strainname_scaffold.fasta
 # 上面更改就是通过参数 --locustag实现的

2、在线工具及常用数据库

KEGG :http://kegg.jp/

image 4.png image

评论:KEGG数据库对相似性阈值要求很高,能在这个数据库注释到基因组很大程度上也拥有对应的功能基因,但因为阈值高所以不能找到新的蛋白。KEGG强大的点在于可以可视化代谢的通路,因此KEGG注释是个必选项。

Eggnog(EGGNOG-Mapper): http://eggnog5.embl.de/基于Diamond算法

image image image

使用后的评测:EggNOG数据库每个邮箱能够同时上传五个基因组的数据,一天之内有结果

3、基于HMM模型的数据库(更快,更准,更强)

HMM全称Hidden markov model,中文:隐马尔可夫模型,前面的,如果有学习人工智能可以知道前面是比较硬的算法(暴力破解),而HMM模型是基于神经网络预测的(魔法),因此有更高的灵敏度和准确性,也比较符合生物学意义。

3.1 Kofam (更快):https://www.genome.jp/tools/kofamkoala/

image image

评价:速度非常快,一天之内可以上传10个左右的基因组(如果人不累的话可以更多)

3.2 Pfam Hmmer :http://www.ebi.ac.uk/Tools/hmmer/

image image image

这个只接受单条蛋白结果,还算挺快的上传数据一会儿就好了,最有惊喜(感觉自己课题有救)的数据库。就是结果不太好展示,需要自己作图统计

3.3 MEME (motif): http://meme-suite.org/doc/meme-format.html

一个预测蛋白质结构域(蛋白质的真正行使功能的活性区域)的结构域数据库,和比对工具。

输入文件 :核苷酸序列或者蛋白序列

image image image image image image

3.4 antismash(次级代谢产物,抗生素之类的)

image image

这个数据库会告诉我们,微生物到底能合成哪些次级代谢产物,但这个数据库比较小,得出的结果一般告诉我们,你的微生物似乎没有啥有价值的代谢产物,或者空白。数据库能同时运行五个数据,结果下载下来是一堆HTML的结果,所以想放在PPT上只能截图或者自己再作一些图。

3.5 Signal IP(找信号肽):http://www.cbs.dtu.dk/services/SignalP/

image image image

SignalIP对于搞大数据的人(大规模测基因组/宏基因组)来说没有太大的参考意义可跳过,但是需要从基因组预测到下游分子的人需要预测一下。

其他

还有更多像Dbcan,Cazyme,等等跟上面数据库的操作步骤大同小异,有兴趣或需要上官网自行探索。

4、结果解析 (怎样的序列才是可信的)

⚠️选择可信的文献参数作为参考

Similarity怎么看

物种特异性序列与PCR:一个生信与生物学的完美结合的妙用(实验室前辈提供)

  1. 从网上下载NT/NR库(尽可能地收集已知功能的序列)

  2. 用自己的基因组/蛋白序列与数据库相比对

  3. 寻找比对不上数据库的序列(说明是这个生物特有的)

  4. 给第三步的序列设计引物,作为确认此物种的特异性序列

⚠️记得有个漏洞的,因为nt库并不是有全的,自然界还有很多没测基因组,所以物种特异pcr理论上是有可能会有漏洞的,选的时候尽量跨越混着编码区和非编码区去找目的片段,这样的话实际碰到漏洞的机会会少很多(作者原话)

结尾

上面的一些内容会在后一章自己构建数据库中谈谈,本文可能后续还会有补充和更新。

PS码字不易,图片贼心累为什么用markdown就不能把图片上传呢。

各位客官还请多多点赞转发😊

知乎地址:https://zhuanlan.zhihu.com/p/394118088

上一篇下一篇

猜你喜欢

热点阅读