机器学习从菜鸟到高手(一) - 基础工具安装
0. Python安装
建议安装python3.7
1. Jupiter Notebook安装和使用
Jupyter Notebook是一款开源的Web应用, 用户可以使用它编写代码,公式,解释性文本和绘图。
并且可以把创建好的文档进行分享(E-mail, Dropbox, Github)。
目前,它已经广泛应用于数据处理,数学模拟,统计建模,机器学习等重要领域。
Jupyter Notebook支持40几种编程语言,包括Python, R, Julia, Scala等。
1-1) 安装方法:
(前提是你已经安装了python)
pip3 install jupyter
如果你的网络环境不大好,可以使用如下命令来安装:
pip3 --default-timeout=100 install -U jupyter
1-2) 启动Jupyter:
命令行下输入:
jupyter notebook
1-3) 一些快捷键:
Shift + Enter
运行代码并进入下一个单元格
Ctrl + Enter
运行代码不进入下一个单元格
菜单->File->Rename
文档重命名
2. 一些必须库的简介及安装
2-1) Numpy
Numpy是一个Python中的基础科学计算库
它的功能包括高维数组计算,线性代数计算,傅里叶变换以及生产伪随机数等。
Numpy对于scikit-learn来说至关重要,因为scikit-learn使用Numpy数组形式的数据来进行处理,
因此,我们需要把数据都转换成Numpy数组的形式
代码例子:
import numpy as np
arr = np.array([[1,2,3],[4,5,6]])
print("arr:{}".format(arr))
运行结果:
arr:[[1 2 3]
[4 5 6]]
2-2) Scipy
Scipy[saɪ'paɪ]是一个Python中强大的科学计算工具集
它的功能包括:
计算统计学分布, 信号处理, 计算线程代数方程等
其中,sparse函数用得最多,用来生成稀疏矩阵
代码例子:
import numpy as np
from scipy import sparse
# 生成一个6行6列的对角矩阵
matrix = np.eye(6)
# 转化为csr格式的scipy稀疏矩阵
sparse_matrix = sparse.csr_matrix(matrix)
print("对角矩阵:\n{}".format(matrix))
print("\n稀疏矩阵:\n{}".format(sparse_matrix))
运行结果:
对角矩阵:
[[1. 0. 0. 0. 0. 0.]
[0. 1. 0. 0. 0. 0.]
[0. 0. 1. 0. 0. 0.]
[0. 0. 0. 1. 0. 0.]
[0. 0. 0. 0. 1. 0.]
[0. 0. 0. 0. 0. 1.]]
稀疏矩阵:
(0, 0) 1.0
(1, 1) 1.0
(2, 2) 1.0
(3, 3) 1.0
(4, 4) 1.0
(5, 5) 1.0
2-3) pandas
pandas是python中用于进行数据分析的库
它可以生成类似于Excel表格式的数据表,而且可以对数据表进行修改操作。
它可以从很多不同种类的数据库中提取数据(eg: SQL数据库, Excel表格, CSV文件等)。
代码例子:
import pandas as pd
data = {"Name":["KG","David","老顾","织田信长"],
"City":["火星","马德里","上海","东京"],
"Age":["1000","98","101","200"],
"Height":["180","178","175","178"]}
data_frame = pd.DataFrame(data)
display(data_frame)
运行结果:
2-4) matplotlib
matplotlib是一个Python的绘图库
它能够输出的图形包括折线图,散列图,直方图等。
代码例子:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-20,20,10)
y = x**3 + x*x**2 + 6*x + 5
plt.plot(x,y,marker = "o")
运行结果:
2-5) scikit-learn
scikit-learn[saɪkɪt'lɜ:n]是一个非常流行的Python机器学习库。
它是建立在Scipy基础上的用于机器学习的python模块。
它主要有六大类的基本功能:
分类,回归,聚类,数据降维,模型选择,数据预处理