Bioinformatics

生信数据分析新手常见问题

2018-11-03  本文已影响176人  生信石头

写在前面

写一个帖子,慢慢收录一些看起来似乎很简单,确实比较常见的数据分析新手的问题。

为什么一个样品测序之后,会对应两个文件?而且两个文件大小还不同?

双端测序(PE)本身就是对一个片段的两个方向分别测一次。所有一个样品会对应两个文件,其中一个是所谓的正向(事实是,测的第一链条,即Forward),常见文件命名会带有_1或者.1;另外一个,是所谓的反向(事实是,测的第二链,即Reverse Complement),常见文件命名会带有_2或者.2
如下,其中a图会引物会引导测序,125个bp,并产生正向测序读段文件;c图中引物会引导测序,125bp,并产生反向测序读段文件

正反向都是测同样长度的读段,比如125bp,从字符数目来计算,文件似乎应该是一样大。为什么文件大小为什么会不同?比如一个是2.0G,另一个2.2G。造成这么大差别,主要原因是看到的都是.gz压缩文件,压缩的算法有很多,基本上没有一个算法是不受文本复杂度限制的。正反向记录的碱基必然是不同的,至少顺序必然是不同的,所以压缩的效果会有差异,最后文件大小会有差异。

连接服务器跑程序,电脑要关机,任务跑不完,怎么办?

你需要了解一下screen或者tmux这类程序
建议tmux

上一篇下一篇

猜你喜欢

热点阅读