SSRminer | 微卫星分子标记开发,我64秒搞定~
写在前面
如果说在湿实验的主要研究方向上,我还有没太接触的,那么就是“跑大版胶”,开发分子标记。于是,这一块相关功能,我并没有太多想法开发。只是最近开始接触一些群体遗传相关教学,似乎不涉及也不行。讲完课之后,有老师带着可能是 10年前买的笔记本,问我一个 SSR 标记开发的软件,为什么跑不起来。对这个老师不熟悉,问了下,是校外其他单位的老师....咋说呢?我还是有点惊讶,但也有点难受。
这个感觉跟久前写「Sanger Check」的感觉类似。明明说好的,「TBtools」是「要降低生物信息数据分析门槛」,但仍然有很多人,因为这些简单的问题,卡住了许久,相关科研工作无法进一步,或者无法高效开展。到底还是我们工作没做好。索性,趁着假期,我干脆就写了一个。
SSR 微卫星分子标记开发
SSR (Simple Sequence Repeats),简单来说,就是简单序列重复,主要存在形式为 AAAAAAAAAA,TTTTTTTTTT,.... 或 ATATATATAATATAT,ACACACACACACACACAC,即由几个核苷酸(一般为1~6个)为重复单位组成的长达几十个核苷酸的串联重复序列。这类序列在不同材料中容易出现缺失插入。这个很好理解,DNA复制本身就容易出错,尤其在这类简单重复的序列上。如部分序列从某种角度来说,容易形成一个相对复杂的二级结构,如 CCCGGGCCCGGGCCCGGGCCCGGG....。
依此,SSR分子标记设计时,常见的操作,即扩增这段序列,以序列长度变化来区分不同材料。网络上找了个图,感兴趣的可以看看
目前,大多数物种甚至一个物种内的不同材料都已经有基因组序列,我们完全可以基于这些序列,直接从文本的角度挖掘出来这些位点,用于后续分子标记引物设计。这块相关功能的软件,似乎有一些的,常见的是一款 misa.pl 的软件。这个软件,在实现上,有一定的缺陷;运行上也比较慢。其他软件,目前没用过。
但事实上,这个工作很简单,本身就是一个正则表达式的问题。当然,需要稍微处理一些比如一条1Gb大小的染色体进去,如何处理?
对于我来说,这个工作更简单。前面已经写过 “Sequence Pattern Locate”功能,于是现在只需要指定 Pattern 就可以完成这个工作。当然,最重要的是,咱们「TBtools」这个功能跑起来快。
在测试上,一个拟南芥基因组序列进去,64秒就挖掘出全部 SSR 了。
SSRminer 的使用
Emmm,感觉最近写的功能使用比以前都简单... 打开方式如下
可以看到界面中参数几乎只有一个
此处以拟南芥基因组为输入来演示
大概 1 分钟后,可以看到输出目录有对应输出文件,单开可查看具体内容
事实上,这个文件,微调一下,其实可以用 TBtools 的 Gene Location Advanced 或 Advanced Circos 功能进行全基因组可视化。此处不演示。
写在最后
于是,「TBtools」的功能,又增加了一个。无论如何,还是一个事情。当然「TBtools」希望降低生信数据分析门槛;但「TBtools」的作者时间精力有限,对软件感兴趣的朋友,或许应该更多的先看一看「TBtools Cookbook」
《TBtools Cookbook》 - 写给「TBtools」所有用户的参考手册
https://www.yuque.com/cjchen/hirv8i
你想知道的,都在里面了:
- 软件/数据库的下载/更新
- 对应功能的使用说明与具体示例
- 常见问题 FAQ 及解决方案
- 如何有效提出 TBtools 使用问题从而快速获得回复并得到解决