大数据，机器学习，人工智能机器学习和人工智能入门机器学习与数据挖掘

《机器学习实战》第一章

2019-04-30 本文已影响0人山雾幻华

绪论

机器如何学习

监督式学习

算法类型
- 按输入空间划分
  - Concrete Feature
  - Raw Feature
  - Abstract Features
- 按输出空间划分
  - 分类问题
  - 回归问题
  - 结构化学习
- 按不同协议划分
  - Batch Learning
  - Online Learning
  - Active Learning
- 按样本标签划分
  - 监督式学习
    - 分类：将实例数据划分到合适的分类中（垃圾邮件的过滤）
      - K-近邻
      - Logistic回归
      - 决策树
      - 支持向量机
      - 朴素贝叶斯
      - AdaBoost
    - 回归：预测数值型数据（房屋价格预测）
      - 线性回归
      - 树回归
      - Ridge回归
      - Lasso最小回归系数估计
  - 半监督式学习
  - 非监督式学习
    - K-均值聚类：新闻报道自动分类
    - 最大期望算法
    - DBSCAN
    - Parzen窗设计

监督学习一般使用两种类型的目标变量

标称型，目标变量只在有限目标集中取值
数值型，目标变量可以从无限数值集合中取值

选择算法

目的：
- 预测目标变量值：监督学习算法
  - 目标变量类型离散型：分类器算法
  - 目标变量类型连续型：回归算法
- 不预测目标变量值：非监督学习算法
  - 将数据划分为离散的组：聚类算法
  - 估计数据和每个分组的相似程度：密度估计算法
数据
- 特征值为离散型变量或连续型变量
- 特征值中是否存在缺失值，何种原因造成缺失值
- 数据中是否存在异常值，某个特征发生的频率如何

开发机器学习应用程序的步骤

收集数据
准备输入数据
分析输入数据：缺失值、异常值、维度压缩
训练算法：非监督学习不存在此步
测试算法：监督学习——必须已知用于评估算法的目标变量值；无监督学习——必须用其他的评测手段来检验算法的成功率。
使用算法

上一篇下一篇

猜你喜欢

热点阅读