从零开始的基因组分析自学(七)-基因组质量评估
QUAST:评估基因组scaffold N50,L50等指数。
BUSCO:基因组和预测的蛋白组都可以用BUSCO评估基因组组装或注释的完整度(completeness)。
LAI:通过LTR组装指数评估基因组的连贯性(continuity)。
raw data mapping:把测序的reads(包括pacbio,Illumina,RNA-seq reads等)映射回组装好的基因组,评估mapping rate,genome coverage,depth分布等指标。这有非常多工具可用。
除了EBP建议的工具,还有许多其他工具。
比如FastaSeqStats用来评估基因组组装。
对于污染(contaminations),尤其是小的contigs的污染,还可以用blobtools进行评估和处理。
QUAST使用手册:QUAST 5.2.0 manual (sourceforge.net)
无参基因组和有参基因组的组装大概是有一些区别的。参考这篇:使用QUAST评估基因组组装质量 (qq.com)
WGS主流程:从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程 (qq.com)
(其他文章目录)https://mp.weixin.qq.com/mp/homepage?__biz=MzAxOTUxOTM0Nw==&hid=1&sn=d945cf61bd86e85724e146df42af5bcc&scene=1&devicetype=iOS15.7&version=18001f2f&lang=zh_CN&nettype=WIFI&ascene=7&session_us=gh_2942f3f5dbfe&fontScale=100
个人觉得需要把每个过程产生的文件类型,如fasta,fastq,bam,sam文件的格式至少初步了解。
我突然悟了。我想找那种手把手教我分析的视频 要么是要钱 (四五千),要么是免费讲的很一般。
所以三五百的课真的算便宜了
其实软件的操作就是一行代码的事,主要是调参数!
找了中文的研究生论文发现软件写得是很清楚,但是参数和代码不是公开的,可能还得继续找
CNNS的参数都写得很清晰。
目标 年前学会画圈图!