玩转大数据机器学习与数据挖掘数据分析

统计学习概述

2016-11-15  本文已影响42人  哈得死

1.统计学习所做的事

数据--平台--算法--性能提升--应用

也可以这样说:

数据--所有满足条件的模型--评价准则--最优模型--应用

2.处理的问题

分类,标注,预测

3.学习的要素

模型:符合约束条件的模型有哪些?

--假设空间

策略:凭借什么样的准则选择一个模型?

--损失函数,风险函数(期望风险,经验风险,结构风险)

算法:使用什么样的计算方法快速实现策略中的准则?

--最优化

4.模型的评估与选择

奥卡姆剃刀原理

准确率高,简单的模型才是好模型

--训练误差,测试误差,过拟合,泛化能力

5.学习方法和模型的形式

学习方法:

生成模型:由数据学习联合概率分布,再求条件概率分布

判别模型:直接由数据获得决策函数或条件概率

模型形式:

决策函数:由输入变量但输出变量的一个映射关系

条件概率:由输入特征变量到输出变量的条件概率

6.建立一个模型需要考虑的几点

试用的问题:二分类,多分类,回归,标注等

模型的特点:优缺点

模型的类型:生成或判别

学习的策略:极大似然,最大间隔等

损失函数:指数,对数似然函数,距离,合页损失等

学习的算法:随机梯度,EM迭代,前向分步等

算法可能改进的方面: 时间,空间

上一篇 下一篇

猜你喜欢

热点阅读