人工智能学习清单

2017-11-19 本文已影响0人 MWhite

MWhite's Learning Note
17/11/19

初学者入门清单

书籍

《机器学习》西瓜书周志华
The Elements of Statistical
Pattern Recognition and Machine Learning
由于考虑到版权原因，原本给出的电子版下载地址已经取消。

网站

竞赛网站 kaggle.com
python人工智能学习库：scikit-learn

课程

Coursera 吴恩达 Machine Learning

顶级会议以及期刊

ICML,NIPS,COLT
AAAI,IJCAI
ECML,ACML

知识概念清单

以下内容初学者无视

特征提取feature extraction

模型评估与选择

测试集与训练集互斥
- 留出法
- k-折交叉验证
- 自助法有放回的采样
调参与最终模型
算法的参数：超参数（hyper-parameter）人给出
模型的参数：学习得到
性能量度（Performance measure）

查准率与查全率

P=TP/(TP+FP) 准确率 预测正确数中正确数比例
R=TP/(TP+TN) 查全率 正确数中预测正确的比例

P与R无法同时达到最大值，二者取舍、偏好权重
PR图 BEP F1 ROC AUC

线性模型 linear model

线性回归 linear regression
结果为一个数值
方法：找一个代价函数（衡量拟合程度），通过手段找特定的权重使代价函数值最低
逻辑回归（分类） logistic regression /对数几率回归
结果为0或1（离散个结果）
梯度下降（gradient descent）——找代价函数（又叫损失函数）最小值以及其对应权重的方法
拓展到多类（两类分类器拓展到多类）
类别不平衡（class unbalance）问题
- 过采样（oversampling）如STOME算法
- 欠采样（undersampling）
- 阈值移动（threshold moving）

决策树（decision tree）

基于树结构的分类器

决策：分而治之（divide and conquer）
停止条件：
- 样本属性相同
- 样本属于同一类
- 样本集为空
划分方法：
1. 信息增益（information gain）
2. 基尼指数（gini index）

支持向量机

间隔（margin）支持向量（support vector）
最大化分类线与最近样本直接的间隔
凸二次规划
对偶问题拉格朗日函数

Nonlinear SVMs

做一个映射，从而可以线性分类
核函数

软间隔
- 不满足约束的样本尽量少
- 凸近似（convex surrogate）
- 正则化（regulariztion）

聚类（clustering）

数据样本分为多个不想交的簇（cluster）
基本思想：簇内相似度高，簇间相似度低
距离计算（distance measure）
度量学习（metric learning）

马氏距离各向异性

k均值聚类算法（k-means）
spectral clustering
Normalized Cut

降维和度量学习

k近邻分类器
降维（dimension reduction）
主成分分析（Principal Component Analysis）
流形学习（manifold learning）
局部线性嵌入（Local linear embedding）

人工智能学习清单

初学者入门清单

书籍

网站

课程

顶级会议以及期刊

知识概念清单

模型评估与选择

线性模型 linear model

决策树（decision tree）

支持向量机

Nonlinear SVMs

聚类（clustering）

降维和度量学习

猜你喜欢

热点阅读

人工智能 学习清单

初学者入门清单

书籍

网站

课程

顶级会议以及期刊

知识概念清单

模型评估与选择

线性模型 linear model

决策树（decision tree）

支持向量机

Nonlinear SVMs

聚类（clustering）

降维和度量学习

猜你喜欢

热点阅读

人工智能学习清单