机器学习基础 learning note
1.《西瓜书》南京大学 周志华教授
2.机器学习竞赛网站
kaggle.com

3.by朱松纯,UCLA

4.书籍推荐




5.基本术语
那个算法更好(NFL定理)
6.

7.特征提取(feature extraction)
机器学习往往依靠于
8.模型评估和选择
unseen instance
9.过拟合 (overfitting)vs欠拟合(underfitting)
10.模型选择(model selection)
评估方法
(1)常用方法:
留出法:①保持数据分布一致
②k折交叉验证
③自动法

(2)“调参”与最终模型
(3)性度能量
(4)查准率vs查全率
p=tp/(tp+fp)
R=TP/(tp+fn)
(5)PR图 ,BEP(Break event point)
(6)ROC AUC
10.线性模型
分类 回归
11.线性回归
12.逻辑回归 对数几率回归(西瓜书)
13.对率回归如何求解
14.梯度下降
二:扩展到多类
1.类别不平衡问题
:过采样
:欠采样
:阈值移动
2.决策树(基于树结构的分类器)
3.决策树模型:(策略:分而治之)
自根至叶,递归过程
4.划分方法:(1)信息增益
信息熵的定义:
信息增益,划分成v个分支
(2)基尼系数
5.支持向增量
线性分类器回顾
间隔(margin)和支持向量(support vector)

6.最大间隔
7.Nonlinear SVMS
做一个映射从而核函数
8.常用核函数

9.软间隔(soft margin)
10.正则化(regularization)
11.聚类clustering
无监督学习中,研究最多应用最广
如何聚类?基本思想:数据样本分为多个不相交的簇
簇内相似度高,簇间相似度低
12.距离计算
13.度量学习(metric learning)
14.k均值聚类算法(k-means)
k-means:design chioces
How to choose the number of clusters?
k-mesns pros and cons
15.Spectral clustering

三:降维和度量分析
K近邻分类器
:实际运用中很难找到足够准确的近邻――维数灾难
降维
主成分分析
:最大重构性
:最大可分性
流形学习
局部线性嵌入
马氏距离
:欧式距离的缺陷:各向同性
度量学习和视觉跟踪
从度量学习到表示学习
