CIDP---CRISPR sgRNA设计模块

2022-09-06 本文已影响0人许东

各位老师、同学，大家好，今天向大家推出一款我最新开发的、用于CRIPSR系统中sgRNA设计的软件，CIDP。

还是老规矩，首先向同学们介绍为什么做这么一款软件。

CRISPR的重要性和应用前景，不需要再多罗嗦了。在CRISPR整个系统中，sgRNA是引导切割酶到达基因组指定位置的中间媒介，就是它负责识别目的基因进而发挥CRISPR切割等作用的。因而，sgRNA的设计是应用CRISPR系统的前提和关键。我整理了目前所能找到的26款sgRNA设计软件，其中有22款软件是需要用户选择背景数据集（即背景物种，通常为近缘物种）的。如下图所示的两款：

一定要选择背景物种的原因在于sgRNA具有极强的序列依赖性，同时sgRNA又具有一定的序列容忍性，即如果有序列与靶序列间只存在几个碱基的差异，那么sgRNA同样能够结合到非靶序列上，这就是CRISPR系统有名的脱靶效应（off-target effects）。一旦出现脱靶效应CRISPR就会切割到其他的非靶基因上，从而导致一些不可控事件的发生（这也就是为什么不能轻易应用到医学的原因）。因此，需要选择背景数据集以便计算设计出来的sgRNA的脱靶效应得分，从而为用户选择合理的sgRNA提供一个重要依据。

但是，这里仍然存在一个问题。那就是随着科学研究的深入，有越来越多的物种纳入到了研究体系中，以植物为例，目前经过测序的植物达788种，这里面还不包括同一物种不同品种。很多不常见但有极大价值的物种被挖掘和研究。然而，大多数设计软件的数据库收录的物种却极为有限，这就导致一些物种很难在设计工具中找到近缘物种。如前所述，sgRNA本身具有极强的序列依赖性，即便是近缘物种间仍然存在具有的序列差异更不用提使用的背景数据集还不是近缘物种的。因此，选择近缘物种设计sgRNA这种方式仍然还需要商榷与改进。

为此，设计了CIDP，它的基本策略是通过使用用户输入的基因组序列来构建背景数据集。因为所用的就是物种本身的数据，因此，这种可靠性可能更高。同时，在输入目的基因序列后，根据PAM类型选择可能的sgRNA，之后对产生的sgRNA在全基因组范围内查找并优先输出在整个基因组具有唯一性的sgRNA片段。同时，借助序列比对软件查找与sgRNA碱基差异在设定值内的序列从而计算脱靶率。

接下来，向同学们展示具体的使用方法：

数据库的构建

将基因组序列文件拖入或者通过点击的方式放入①，设定sgRNA的长度（通常为20bp，也可以根据自身需要设定，如果20bp满足要求，则不需要输入，CIDP的重要特点是凡是设定的default值满足需求都可以不设置，尽可能减少同学们的操作~），点击 "built the database" 等待完成即可。

注意：1、因为是对基因组序列进行操作，所以建库的时间会相对长，测试阶段，200Mb左右的文件大约需要2h时间，所以建议同学们可以在晚上休息前给它跑上；

2、这部分功能主要是消耗硬盘空间，请保证足够空间，经验值是261Mb文件会产生5.54Gb的库；

3、对同一物种来说，库不要重复构建；

4、对整个CIDP来说，请尽量避免路径（包括安装路径也包括文件路径）中有空格。

5、如果界面显示未响应，不用管它，这不是真的未响应。对CIDP而言，只要它不报错你就不需要额外操作，静待即可。

sgRNA设计：建库完成后，即可开始设计，界面如下：

将库放入①；将基因组序列文件放入②；如果需要批量设计就将序列整理成fasta格式的文件，放入③，如果不需要则直接将基因序列放入④（这里仅仅需要放入序列就好，不需要放入fasta格式），从⑤中选择需要的PAM模型（共有20种模型供选择，默认为NGG，如果是NGG则不需要任何操作），或者将PAM模型直接输入到后面（直接输入模型也必须是20种模型中的一种，之所以这样设置是担心有些同学不知道他所用的载体该是哪种PAM，为了明确PAM种类，我在“other functions” 模块设置了判断功能，使用方法在文末）。如果想要设计一组基因共有的sgRNA，则应勾选⑥，此时的评价指标会按照输入文件的第一条序列来进行计算；如果不需要基因组范围内的unique sgRNA而仅仅只想统计输入序列上含有的sgRNAs则需要勾选⑦；虽然CIDP会提供具有基因组范围序列唯一性的sgRNA，但这种sgRNA仍然会有序列与其相似，为了找出这些潜在的非靶位点并计算脱靶率，需要用户在⑧输入错配碱基数（默认为5，这个阈值一般情况下是没有问题的），然后，在⑨放入保存位置并记住要命名结果文件。之后，点击⑩，等待程序完成即可（只要不报错，就不需任何操作，耐心等待即可，因为是要在全基因组范围内进行查找，所以这也会消耗一定的时间。总之，包括CIDP在内的任何需要在基因组范围内进行搜索的程序一般效率都不会高，这个同学们应该有经验或者心里有数才对，不过好在这款软件是针对做实验的同学的，所以也并不需要过多设计~）。待程序完成，会在右侧显示结果，如下图：

需要指出的是有些同学们可能希望对结果进行可视化，那么当只输入一条序列时，上述步骤完成后，可以直接点击按钮11，即可对结果可视化；如果输入的是一个fasta文件，此时的输出结果会按照基因ID进行命名并逐个输出，比如这个时候的输出文件有一个是result_ARF4.txt，如果此时想要可视化这个结果，则需要将result_ARF4.txt，拖入到保存位置（即⑨），然后点击按钮11即可。可视化的大致结果是这样的：

在这条序列的什么位置上对了一条sgRNA，它的序列是什么，它在正链还是在负链上，这些信息应该足够了~

结果文件说明：

除在保存位置会有sgRNA结果，还会有一个比对文件，如下图：

比对文件：

一般格式如上图，但在红框所示区域，如果出现“not_unique”字样，表示这个sgRNA并不具有全基因组唯一性。

sgRNA结果文件

如果出现感叹号“！”，则表示这个sgRNA具有多个连续的A或者T需要警惕这种sgRNA,这种sgRNA可能导致转录的提前终止。

判断该使用哪种PAM的方法

选择cas酶（①），点击“press to identify the pam mode”，会在②显示该用哪种PAM。

CIDP---CRISPR sgRNA设计模块

猜你喜欢

热点阅读