2018-11-22 机器学习
机器学习试学班
第一天
1 Pandas 加载数据 :
pandas 打开 dataFram对象的数据集
import pandas
data = pandas.read_csv("2_test.cvs")
2 Numpy数组
将pandas 加载的dataFram 数据集 转变成 numpy 数组: numpy.array(data[['x']]) x 为 数据的列名
3 使用sklearn 中的 算法 训练模型
逻辑回归: (拟合数据 的线 ,让分布 数据在 线周围 )
from sklearn .linear_moder import LogistcRegression
classifier = LogisticRegression()
classifier.fit()
神经网络
from sklearn.neural_network import MLPClassifier
classifier = MLPClassifier()
classifier.fit()
决策树
from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier()
classifier.fit()
支持向量机
from sklearn.svm import SVC
classifier = SVC()
classifier.fit()
4 手动调参
如 classifier = SVC(kernel = ‘poly’,degree = 2 ,gamma = 200,C=c)
kernel : linear (线性) poly(多项式) rbf(高斯核)
degree : 多项式内核的次数
gamma : r 参数
C: c参数
5
回归 返回的是 一个数值
分类 返回的是 一个状态 (yes or no)
黄金法则: 不能将测试数据用于训练 ,测试数据放在最后用,不能用他们来训练模型
sklearn 可以轻松的将数据 拆分为 训练数据和测试数据 :
from sklearn.cross_validation import train_test_split
X_train, X_test , y_train, y_test = train_test_split(X,y,test_size = 0.25)
注意 :test_size 是指用做测试数据的点
存在问题:
1
2 ancoda 命令行 导包 搞不清 ,包之间的依赖关系搞不清
3 包之间的依赖关系搞不清 numpy 依赖 pandas 所以 导 numpy 时 没有pandas 就自动导了 ,不 用专门导pandas 不 用专门导pandas 不 用专门导pandas!!!!!!!!!!!!!!!!!!!!!!
4 决策树分出来的怎么是矩形??
5
列举机器学习领域的回归算法 :线性回归,多项式回归,逐步回归,岭回归,Lasso回归,ElasticNet回归
Pandas 用于解决python 中的数据分析任务 高效地操作大型数据集,numpy 主要用于定义和操作n维矩阵,数据 可视化一般会用到Matplotib 和 Seaborn 标准库