大数据,机器学习,人工智能大数据 爬虫Python AI Sql

《机器学习》(周志华)西瓜书读书笔记(完结)

2019-11-12  本文已影响0人  叫我老村长

第1章 绪论

第2章 模型评估与选择

第3章 线性模型

  1. 一对一(OvO),N个类别产生N * (N - 1) / 2种分类器
  2. 一对多(OvR或称OvA),N个类别产生N - 1种分类器
  3. 多对多(MvM),如纠错输出码技术
  1. 过采样法,增加正例使正负例数目接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本.
  2. 欠采样法,减少负例使正负例数目接近,如EasyEnsemble:每次从大多数类中抽取和少数类数目差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出一个AdaBoost分类器(带阈值),最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.
  3. 再缩放法

第4章 决策树

  1. 信息熵:[图片上传失败...(image-6718b5-1549689693019)]

  2. 信息增益:[图片上传失败...(image-2eaea3-1549689693019)]

  1. 增益率:[图片上传失败...(image-6b8c1d-1549689693019)]

  2. a的固有值:[图片上传失败...(image-67ee19-1549689693019)]

  1. 基尼值衡量的纯度:[图片上传失败...(image-321f09-1549689693019)]

  2. 基尼指数:[图片上传失败...(image-d6f7f8-1549689693019)]

  1. 预剪枝对每个结点在划分前先进行估计,若该结点的划分不能带来决策树泛化性能提升,则停止划分.预剪枝基于"贪心"本质,所以有欠拟合的风险.
  2. 后剪枝是先生成一棵完整的决策树,然后自底向上对非叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将子树替换为叶结点.缺点是时间开销大.

第5章 神经网络

[图片上传失败...(image-e0e096-1549689693026)]

  1. 早停:若训练集误差降低但验证集误差升高则停止训练.
  2. 正则化:在误差目标函数中增加一个描述网络复杂度的部分(较小的连接权和阈值将使神经网络较为平滑).
  1. 以多组不同参数初始化多个神经网络,选择最接近全局最小的
  2. 模拟退火
  3. 随机梯度下降

第6章 支持向量机

第7章 贝叶斯分类

第8章 集成学习

  1. 序列化方法:个体学习器间存在强依赖关系,必须串行生成.
  2. 并行化方法:个体学习器间不存在强依赖关系,可同时生成.
  1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选而导致泛化性能不佳,结合多个学习器会减小这一风险.
  2. 计算:通过多次运行之后进行结合,降低陷入糟糕局部极小点的风险.
  3. 表示:结合多个学习器,相应的假设空间有所扩大,有可能学得更好的近似.
  1. 平均法:对数值型输出,最常见的策略是平均法.一般而言,在个体学习器性能相差较大时使用加权平均法,性能相近时使用简单平均法.权重一般也是从训练数据中学习而得.
  2. 投票法:对分类任务来说,最常见的策略是投票法.又可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接比较,需要将类概率输出转化为类标记输出后再投票.
  3. 学习法:当训练数据很多时,一种更强大的策略是通过另一个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器.Stacking用初级学习器的输出作为样例输入特征,用初始样本的标记作为样例标记,然后用这个新数据集来训练次级学习器.一般用初级学习器的输出类概率作为次级学习器的输入属性,用多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.

第9章 聚类

第10章 降维与度量学习

第11章 特征选择与稀疏学习

由于第一次阅读,12章开始的内容仅作概念性了解.

第12章 计算学习理论

第13章 半监督学习

第14章 概率图模型

第15章 规则学习

第16章 强化学习

上一篇 下一篇

猜你喜欢

热点阅读