西瓜书扩展_学习理论
概念=未知目标函数
样本集大小
“不可知PLA可学习”
二分类问题,0-1损失函数(0-1 loss function)
泛化误差(generalization error)也称期望损失(expected loss)
经验误差(empirical error)也称经验损失(empirical loss)
由于数据集D是独立同分布的采样,因此的经验误差期望等于其泛化误差,带入霍夫丁不等式(Hoeffding Inequality)
上面说到期望就是平均数随样本趋于无穷的极限,那么这句话是什么意思呢?
我们还是以上面的掷骰子为例子:
如果我们掷了无数次的骰子,然后将其中的点数进行相加,然后除以他们掷骰子的次数得到均值,这个有无数次样本得出的均值就趋向于期望。
个人理解:均值为多个随机变量的和再除以个数,相当于还是一个随机变量,当数量足够多的时候,这个随机变量会收敛,这个收敛的值为期望
,
泛化误差上界(generalization error bound)
联合约束(Union Bound)
,
对分(dichotomy)
增长函数(growth function),max表示最大
打散(shattering),N个样本点的集合 能 被H给打碎,或者说H 能 打碎N个样本点的集合
突破点(break point),N个样本点的集合 不能 被H给打碎
vc维(VC Dimension),max表示最大
一个数据点呈圆形分布的凸集,这时找不到任何突破点(break point),此时vc维趋于无穷。
Sauer 引理如果一个集合被打碎,那么它也能被打碎,因为中包含所有在上不重复的函数。
此外,如果一个集合被打碎,集合也将被打碎,因为对中的所有函数,都包含另外一个函数,它仅在上的输出和前一个函数不同。
递归递归:大雄在房里,用时光电视看着未来的情况。电视画面中的那个时候,他正在用时光电视,看着未来的情况。电视画面中的那个时候,他正在用时光电视,看着未来的情况……
当的时候,
基于vc维得到的泛化边界(model complexity)
不是一味的追求经验误差最小化 未知目标分布 P(y|x) 包含 f(x)+noise对于不同的学习任务(分类,回归,..)使用不同的损失函数(loss function)才能正确的解答。
X的样本数量为N
打散(shattering)就是我们给它任何一种ooxx组合,都要能够做到也就是一条直线正确分类。
只要可以求逆就能求出与之相对应的,全部的种组合都可以使用这种做法。