文献解读--籼稻基因组完成图
之前与大家分享了使用 NCBI 依据影响因子检索文献的技巧,今天咱们就实战一下。
今天的题目是搜索出 2017 年发表的 IF≥10 的基因组 de novo 组装文章并挑选一篇进行解读。
咱们一步一步来 :
1. 检索文献
打开 NCBI PubMed,输入关键词genome de novo assembly ,并选择文献起止时间:
设置文献起始时间
按照之前设置好的 IF 筛选条件,查看 IF >= 10的文章。
设置 IF 筛选条件
我们发现该关键词下共搜索到 345 篇文献,其中发表在 IF > 30 分杂志上的有3 篇,30 >IF >=20 的有3篇,20>IF>=10有23篇,而我们的目标就在这些文献中。
不过按照常理 大于 30 分是神人发的,大于20分是牛逼实验室发的准则来讲,我们主要还是看看 20 >IF>=10这个档次的文章,这个档次的文章贴近实际,而且基本把实验与分析玩到了极致。
我们今天解读一篇籼稻基因组的文章;
Sequencing and de novo assembly of a near complete indica rice genome
这是中国科学院遗传所梁承志研究组 5月份在线发表在 Nature Communications 上的一篇文章,2016年 期刊 IF=12.123.
还是带着三个疑问,我们开始文献的解读:
1. 是什么?
该研究构建出一个目前最高质量的水稻基因组参考序列。
2. 为什么?
水稻作为五大作物中与生活密切相关的粮食作物来说,其每一次研究的推进都是对人类生存的一份贡献。作为粮食模式物种来说,其研究程度的高低,科研成果的分量不言而喻。
基因组参考序列的好坏一直是制约生命科学研究的一大困难所在。因此提高参考基因组的序列质量意义重大。本研究中,作者通过最新的测序技术,极大的改善了水稻参考基因组的质量。
3. 怎么样?
闲话少说,书归正传,接下来我们一起进入作者的水稻世界看看作者是怎样将水稻基因组一步步完善的。
3.1 材料选择
籼稻品种 Shuhui498
3.2 测序方法
研究采用了三代测序平台进行全基因组测序。
3.3 研究成果
通过三代测序,共获得了47G,约118×的数据。利用PBcR流程对三代测序数据进行组装,采用较宽松和严格两种参数,分别获得了contig N50为1.1M和443kb的指标。而用Falcon和CANU流程组装则分别获得了contig N50为516kb和900kb的指标。值得注意的是,该研究对564个fosmid池(插入片段~40kb)进行测序,获得了6.3Gb的GBS tags,并将这些数据用于基因组组装当中,其方法是将tags比对到纠错后的三代序列上,每个fosmid池获得了800M的最佳比对序列,对每个池的选择出的序列分别进行Falcon组装,获得fosmid contigs。接着,以WGS contigs为节点,fosmid contig为连线,选择最佳路径进行迭代,在遗传图谱上将WGS contigs连接或延伸成super-contigs。最终获得的super contigs仅有17个,并且每个染色体末端都发现了端粒序列,说明每条染色体的末端都组装出来,得到非常完整的基因组序列。
超级重叠群的构建示意图 image.png