自学生信锦囊

【陪你学·生信】五、当你有一段待分析的DNA序列

2020-10-06  本文已影响0人  番茄随笔

这一推送将介绍当你测序得到一段DNA序列后,可能会用到的基础操作。

一、拿到序列结果后,首先剔除可能的错误

一般送测序的样品往往经历纯化,克隆,转化等操作。期间不可避免会混有不是目标序列的片段。可能来自于载体,也可能是操作中的污染。为了避免浪费时间分析错误的、污染的序列。首先要学会找到序列中的非目标部分并编辑序列。

1. 载体序列

如果是克隆再测序,那么序列末端一般会带有载体的序列。可以查找序列中,可以与你使用的载体序列部分,然后删掉它。

可以利用NCBI的VecScreen工具,原理仍然是blast,但是其参数设置和检索数据库是适合找到序列中载体质粒部分的。

https://www.ncbi.nlm.nih.gov/tools/vecscreen/

VecScreen结果有两种可能:

(1)一种可能的检索结果是序列与已知载体没有高度相似部分,那么就直接继续对序列进行分析就可以;

(2)另一种结果是,发现序列有一部分与载体相似,仍分两种情况:

(2.a)如果在序列末端,那么可以删除后继续分析;

(2.b)如果相似部分在各处都有,或者是检索得到的载体甚至不是你使用的那个,可能是操作中污染了,就扔了重做吧。

2. 一些不用扔了重做的情况

如果VecScreen结果显示的你的序列两端有载体序列(类似于2.a的情况),但是载体名字不是你用的那个,也别立刻否定这个序列不能用了。因为很多载体质粒是在其他载体上进行改造产生的,所以序列上是可以对应的,名字却不同。

另外也要看你研究的目的基因,比如你研究的基因就是构建载体常用的抗性基因,那么VecScreen肯定会出现比对上的结果(我好像又废话了)。

二、限制性酶切图谱

之前介绍过Restriction map(【现学现卖】基因图谱概述)。得到理论上的限制酶切图谱很简单,只需要在序列中找限制性酶切位点。

现在很多序列分析软件都可以一键显示限制性酶切位点,另外推荐一些数据库:

1. REBASE database

http://rebase.neb.com/rebase/rebase.html

2. Webcutter

http://www.firstmarket.com/cutter/cut2.html

三、设计PCR引物

相信大家对PCR都很熟悉了(【现学现卖】实验-PCR),首先当然是需要设计引物。很多软件可以根据一段序列,设计符合条件的引物,还有线上的小工具,比如NCBI-primer designing tool等。

四、分析DNA序列的组成

1. GC含量、核苷酸组成等

可以使用Genomatix: DNA Sequence Toolbox页面中的creat sequence statistics按钮可以帮助我们分析序列的GC含量、单核苷酸、二核苷酸、三核苷酸组成等。

https://www.genomatix.de/cgi-bin/tools/tools.pl

2. 分析查找序列中的重复

DNA序列中的重复片段常参与基因重组和表达调控。

推荐工具

BioWeb(还有其他工具,它们算法各有不同。)

https://bioweb.pasteur.fr./welcome

里面的tools and packages-mreps等工具。其他工具都可以点开看看,有功能描述。

五、寻找蛋白质编码区域

前面我们检查了序列中有没有污染(载体序列污染),得到了限制性酶切位点,还有序列组成的一些数据。现在可以看看这段序列有没有、在何处可以编码蛋白质。

1. 用NCBI-ORF-Finder寻找开放阅读框

一段序列如果要编码蛋白质,需要有起始子(一般是ATG),并在一段距离之后有终止子(TAA, TAG, TGA),这就是开放阅读框的定义。

下面我们利用NCBI的ORF Finder来找序列中的开放阅读框。

https://www.ncbi.nlm.nih.gov/orffinder/

操作很简单,复制序列,选择适合自己的材料的遗传密码等参数,然后查找。我今天才发现,原来有这么多种遗传密码可以选择,31种耶!

结果显示界面也是比较清晰的。

2. 用GeneMark寻找开放阅读框

上述1方法外还有很多可以寻找ORF,比如一些序列分析软件。再介绍另外一个网页工具,GeneMark。

(1)打开主页

http://exon.gatech.edu/GeneMark/

主页展示了很多分类,选择适合自己的序列的分类,点击。

(2)结果页面很简洁,只展示前5个ORF基因。

六、组装(Assembling)序列片段

即识别序列重叠部分,将多个片段序列组装为一个序列。

这本书介绍了CAP3,一个短序列拼接的在线工具(在线工具处理序列的量有限。如果是处理二、三代测序的基因组数据,可以下载软件和工具包,很多不是windows系统下运行的,比如Canu。),输入序列格式fasta。

http://doua.prabi.fr/software/cap3

七、其他工具推荐

当然,如果你有一些DNA序列,能做的不仅仅是上述这些。欢迎留言,说说你实验中常见的目的、操作或者喜欢的软件、网站吧。

我先来推荐我用过感觉还不错的:

1. 序列操作工具箱

http://www.detaibio.com/sms2/rest_map.html

很多小工具,比如格式转换的,还有对序列、引物序列性质分析的等等。

2. 生物数学计算机

https://ita.promega.com/resources/tools/biomath/

适合头大,怕算错浓度和用量的时候。

往期相关内容:

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

对喜欢看推送的小伙伴们说声抱歉,好久没有更新,嘿嘿。

因为上周,我一不小心看了三本小说,《长夜难明》《三体Ⅰ》《三体Ⅱ》(都好看耶,Ⅲ正在很缓慢地看)

太奢侈的一周了,嘿嘿,身体力行,欢度中秋,喜迎国庆~

嗯嗯,继续一起学习吧!

欢度中秋 喜迎国庆 开学快乐  
上一篇下一篇

猜你喜欢

热点阅读