《机器学习实战》

2019-03-27  本文已影响0人  oppy

有道笔记原文

机器学习实战

Github代码

第一章 机器学习基础

  1. 2007年选出的十大数据挖掘算法
    C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法
  2. 文章结构
  1. 基本概念

第二章 k-近邻居算法

  1. k-近邻算法基本理论(测量不同特征值之间的距离方法进行分类)
  1. k-近邻算法优缺点
  1. 数据相关
  1. python语法

第三章 决策树

  1. 决策树:数据形式容易理解,但可能过度匹配,createBranch算法见下
检测数据集中的每个子项是否属于同一分类: 
    If so return 类标签;
    Else
        寻找划分数据集的最好特征
        划分数据集 
        创建分支节点
            for每个划分的子集
                调用createBranch函数并增加返回结果到分支节点中
        return  分支节点
  1. ID3算法划分数据集;
H = \sum_{i=1}^np(x_i)log_2p(x_i)

公式参考

  1. 基本算法:选择某特征划分之后熵最高的特征,进行划分;不断建立决策树,直到每个分支下所有实例都具有相同的分类。具体可以查看相关代码
  2. matplotlib的注解功能绘制树形图
  1. 使用决策树执行分类
  1. 决策树的存储:使用python的pickle模块(类似于json,但两者有区别)
  2. 决策树的剪枝
上一篇下一篇

猜你喜欢

热点阅读