机器学习基础2-安装环境

2023-05-09 本文已影响0人牧_青

2.1、常用环境

Python是一种动态的高级编程语言，Python代码是通过解释器解释执行。Python数据类型不用事先声明，语法更为灵活多变，代码看起来也更简洁，高效快速是Python引以为傲的特点。

Python库安装工具Pip和Conda。如果成功安装Python后，就能在命令行中直接使用Pip命令了，而Conda则需要额外进行安装才能使用，Conda功能更为强大

pip install 库名
# 使用国内源加速下载
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名
# 或者
conda 库名

使用库方面，Python也和其他编程语言一样，需要先导入再使用

import 库名

# 或者 
import 库名 as 别名

# 使用库中的类
from 库名 import 类名

Numpy是Python语言的科学计算支持库，提供了线性代数，傅里叶变换等非常有用的数学工具。

pip install -U numpy

Numpy拥有强大的科学计算功能，Array数据类型是Numpy的核心数据结构，与Python的List类型相似，但功能强大的多。Numpy相关功能都是围绕着Array类型建设的。

# 使用Numpy包只需要导入即可，业界习惯用np作为它的别名
import numpy as np

Scikit-learn库包含了常见的机器学习算法，而且还在不断更新。

scikit-learn库对机器学习算法进行封装，使用过程非常简单，只要根据格式填入数据即可，不涉及额外的数学运算操作。

pip install -U scikit-learn

# 使用scikit-learn
import sklearn

调用机器学习算法也非常简单，Scikit-learn库已经将算法按模型分类，查找起来非常方便。如线性回归算法可以从线性模型中找到

from sklearn import linear-model

model = linear_model.LinearRegression()

Logistic回归算法也是依据线性模型

from sklearn.linear_model imort LogisticRegression
model = linear_model.logisticRegression()

类似的还有基于近邻模型的KNN算法

生成模型后，一般使用fit方法给模型"喂"数据进行训练。完成训练的模型可以使用predict方法进行预测。

Pandas是Python语言中知名的数据处理库。但是从生产环境上得到的数据需要首先进行数据清洗工作，最常见的如填充丢失字段值。数据清洗工作一般由Pandas来完成，特征工程也可通过Pandas完成。

pip install -U pandas

Pandas具有两个核心的数据类型，即Series和DataFrame

业界习惯在导入时，使用'pd'作为他的别名

import pandas as pd