人生苦短, 我用Python (Step one)
学习 Python
- 对于慕课网, 它提供在线编辑器, 如果大家在机房上课时不需要安装好环境即可进行Python的编程学习, 非常方便
- 一般而言官方文档更具权威性, 所涉及的内容也是最全面最新的, 并且官网还会提供Api(接口文档)可方便查看各函数和类的作用和使用方式
Python相关库的学习
对于相关库的学习, 我们目前的主要目标是学会将库运用在机器学习当中, 故此暂时不必太过深入, 在用多了以后再深入其原理和机制会达到更好的效果
0. Numpy: 创建和处理数值数据, 数组和矩阵的扩展模块
Numpy 是一个用python实现的科学计算包。提供了许多强大的数据运算函数如: 矩阵数据类型、矢量处理,以及精密的运算库
学习完Python你会发现Python使用了list来代替array, list的效率并不高, 但庆幸的是我们有numpy, 其提供了数组和矩阵, numpy的许多函数不仅是用C实现了,还使用了BLAS. 在以后机器学习当中, 从文件中读取数据后我们通常会使用numpy的数据结构来存取变量, 并且许多第三方库的操作都会依赖于numpy的数据结构进行
1. Matplotlib: 2D绘图库, 将数据可视化
Matplotlib 是一个2D绘图库, 我们在读取了数据之后可调用该库的函数来将数据可视化, 数据可视化后可以让我们更好的发现数据的规律
在这里直接举个例子展示可视化的重要性
假设我们在解决一个分类问题, 我们在读取训练数据后, 将其可视化后可看出三种不同分类的大致分布情况, 并得知setosa一类较其他两类会更容易区分出来, 该图正是通过调用matplotlib的库实现的
matplotlib2. Pandas: 数据的处理和清洗
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法
Pandas在机器学习中非常有用, 其方便我们对大量的数据进行增删改查操作
3. Seaborn: 数据可视化的库
Matplotlib是Python主要的绘图库。虽然Matplotlib很强大,它本身就很复杂,经常需要大量的调整才能将图表变精致。seaborn是斯坦福大学出的一个非常好用的可视化包。为了控制matplotlib图表的外观,seaborn模块自带许多定制的主题和高级的接口。
使用seaborn可以加快我们数据可视化的效率, 其提供许多内置的函数使作图更加容易.j