SSRminer | 微卫星分子标记开发，我64秒搞定~

2022-04-05 本文已影响0人生信石头

写在前面

如果说在湿实验的主要研究方向上，我还有没太接触的，那么就是“跑大版胶”，开发分子标记。于是，这一块相关功能，我并没有太多想法开发。只是最近开始接触一些群体遗传相关教学，似乎不涉及也不行。讲完课之后，有老师带着可能是 10年前买的笔记本，问我一个 SSR 标记开发的软件，为什么跑不起来。对这个老师不熟悉，问了下，是校外其他单位的老师....咋说呢？我还是有点惊讶，但也有点难受。
这个感觉跟久前写「Sanger Check」的感觉类似。明明说好的，「TBtools」是「要降低生物信息数据分析门槛」，但仍然有很多人，因为这些简单的问题，卡住了许久，相关科研工作无法进一步，或者无法高效开展。到底还是我们工作没做好。索性，趁着假期，我干脆就写了一个。

SSR 微卫星分子标记开发

SSR (Simple Sequence Repeats)，简单来说，就是简单序列重复，主要存在形式为 AAAAAAAAAA，TTTTTTTTTT，.... 或 ATATATATAATATAT，ACACACACACACACACAC，即由几个核苷酸（一般为1~6个）为重复单位组成的长达几十个核苷酸的串联重复序列。这类序列在不同材料中容易出现缺失插入。这个很好理解，DNA复制本身就容易出错，尤其在这类简单重复的序列上。如部分序列从某种角度来说，容易形成一个相对复杂的二级结构，如 CCCGGGCCCGGGCCCGGGCCCGGG....。
依此，SSR分子标记设计时，常见的操作，即扩增这段序列，以序列长度变化来区分不同材料。网络上找了个图，感兴趣的可以看看

目前，大多数物种甚至一个物种内的不同材料都已经有基因组序列，我们完全可以基于这些序列，直接从文本的角度挖掘出来这些位点，用于后续分子标记引物设计。这块相关功能的软件，似乎有一些的，常见的是一款 misa.pl 的软件。这个软件，在实现上，有一定的缺陷；运行上也比较慢。其他软件，目前没用过。
但事实上，这个工作很简单，本身就是一个正则表达式的问题。当然，需要稍微处理一些比如一条1Gb大小的染色体进去，如何处理？
对于我来说，这个工作更简单。前面已经写过 “Sequence Pattern Locate”功能，于是现在只需要指定 Pattern 就可以完成这个工作。当然，最重要的是，咱们「TBtools」这个功能跑起来快。

在测试上，一个拟南芥基因组序列进去，64秒就挖掘出全部 SSR 了。

SSRminer 的使用

Emmm，感觉最近写的功能使用比以前都简单... 打开方式如下

可以看到界面中参数几乎只有一个

此处以拟南芥基因组为输入来演示

大概 1 分钟后，可以看到输出目录有对应输出文件，单开可查看具体内容

事实上，这个文件，微调一下，其实可以用 TBtools 的 Gene Location Advanced 或 Advanced Circos 功能进行全基因组可视化。此处不演示。

写在最后

于是，「TBtools」的功能，又增加了一个。无论如何，还是一个事情。当然「TBtools」希望降低生信数据分析门槛；但「TBtools」的作者时间精力有限，对软件感兴趣的朋友，或许应该更多的先看一看「TBtools Cookbook」
《TBtools Cookbook》 - 写给「TBtools」所有用户的参考手册

https://www.yuque.com/cjchen/hirv8i

你想知道的，都在里面了：

软件/数据库的下载/更新
对应功能的使用说明与具体示例
常见问题 FAQ 及解决方案
如何有效提出 TBtools 使用问题从而快速获得回复并得到解决

SSRminer | 微卫星分子标记开发，我64秒搞定~

写在前面

SSR 微卫星分子标记开发

SSRminer 的使用

写在最后

猜你喜欢

热点阅读