【转录组-4】数据质控

2019-12-23  本文已影响0人  oddxix

感谢关注:oddxix

得到下机数据后,我们先要进行数据质控,看一下数据质量

质量检测

数据质量主要从两方面去分析:碱基含量分布和碱基质量分布

碱基含量分布

测序的GC含量应该与物种的GC含量相同


纵坐标是碱基分布比,横坐标是reads从第一位到最后一位,单端reads是90bp。
机器读不出来或者分辨不出来的就是N碱基。N碱基越少越好

碱基含量分布异常



注:样品为混合样品或者测序一次样品不能够饱和等原因造成的波动是可以忽视的

碱基质量分布

评价标准





错误率和质量值的对应关系


碱基质量分布图

纵坐标是质量,横坐标是reads

数据质控

RNAseq中的duplication不是打断不随机造成的,而是由于基因的表达差异。去除duplication会造成丰度信息的丢失,于是在RNAseq定量分析中不能去duplication.但在没有参考基因组的情况下需要对序列进行拼接,此时又需要去duplication。


不要求100%精确,原则是不影响后续分析,可以根据最终结果,重新过滤数据

上一篇 下一篇

猜你喜欢

热点阅读