数据处理备忘清单

2019-05-31  本文已影响0人  GPZ_Lab

本次笔记内容:

  • ...虽然我明白每次拿到的数据都不一样,数据处理和清洗的步骤和侧重也不一样,但总有一些共性。这使得一个备忘清单很有必要。拿到一套数据后,我们可以对着清单排雷,并加上新遇到的雷。

  • 所以本笔记内容是做数据处理和清洗时需要注意的东西。持续更新,欢迎补充。

  • 我们使用python pandas数据处理

  • 这里的数据指目前我们工作中遇到的微生物组metadata,如电子病历,问卷收集的研究对象社会人口学信息,生活习惯等。有手工录入的,也有自动收集并导出的数据。本质上也是由samples和features构成的data.


  1. 重复值: 重复行/列
  2. 处理有关联的表格,需要注意的地方
  3. 异常值: 不规范数值及错误值
  4. 缺失程度: 每个feature的缺失率
  5. 数据分布:
  6. ... ...
1. 重复行/列:
2. 处理有关联的表格,需要注意的地方
3. 异常值
4. 缺失值
5. 数据分布
6. to be continued...
上一篇下一篇

猜你喜欢

热点阅读