生物信息可视化

小工具 | 滑窗计算GCskew / GCratio / Nra

2022-02-09  本文已影响0人  生信石头

写在前面

最近可以用来工作的时间少得可怜...但项目总归是要一步一步推进。每天都可能会怀疑人生,然后遗忘或者突破这个怀疑。或许这就是人生无可奈何的一部分。
回到主题。前述,开设了“TBtools吐槽大会”板块,可以方便各种对 TBtools 开发有意见或者建议的朋友过去提一提。当然也可以吐槽软件这里不好,那里不好。
其中有一个建议还不错:



大体是看看基因组序列中未知碱基的分布(一般用 N 指代),以此来判断基因组不同区域的组装质量(是否有 Gap 等)。
正好手上的项目确实需要用上,同时我也想起来多年前做细菌基因组时 GCskew 等指标的计算。于是顺手在 TBtools 中增加了一个小功能。

Fasta Window Stat

界面如下:



使用起来太过简单,一般啥也不用管,直接拿到一个基因组的 Fasta 序列文件即可动工。



运行完成后,可在输出目录中看到三个文件,分别是
  1. Nratio,即未知碱基的分布情况
  2. GCratio,即GC含量的分布变化情况
  3. GCskew,即GC偏向性情况(一般针对单链基因组有用)

大体文件内容如下


使用 Advanced Circos 进行简单可视化,可见



可以看出:

  1. 在真核生物或者基因组非环状的材料来说,其实 GCskew 没啥意义;
  2. 拟南芥 Chr1 的中间部分(应是着丝粒),含有大量 N ,该部分在 GCratio 上数据存在缺失(比例极小),同时 GCskew 明显异常。

写在最后

路漫漫,其修远兮;一切还是靠自己。

上一篇下一篇

猜你喜欢

热点阅读