一个二分类下没有免费午餐定理的题
2020-10-28 本文已影响0人
Boye0212
一个证明题
周志华《机器学习》第一章中,有一个关于“没有免费的午餐”定理的题目,题目是这样的:
假设样本空间和假设空间
都是离散的,令
为算法
基于训练数据
产生假设
的概率,令
代表真实目标函数。考查二分类问题,
可以是任何函数
,函数空间为
,假设
是均匀分布(即不管
是什么,都有一半的
对
的预测与
不一致)。现在采用
作为分类器的性能度量,考虑
的“训练集外误差”:
试证明“没有免费午餐定理”成立。
分析与解答
题目未给定的具体形式,但在二分类问题中,无非就4种情况。记
,
,
,
,它们都是常数。将
的训练集外误差对所有
按均匀分布求和为:
上面最后一个等式是因为是均匀分布,因此如果给定了
和
,不管
是0还是1,都有一半的
会是
,一半的
会是
。
又因为,可将上式继续化简:
上式中,第一部分 显然与
无关,第二部分则不然,需要再附加条件
才可以使整个式子与
无关,在周志华的书中,并没有加这个限制,可能是默认隐含了(因为加入这个条件很合理)。
特殊化情形
再来看在书正文中的例子,该例子将特殊化为二分类的错误率,即取
,对应到本文的设定中,有
,
,将它们代入后得:
因此,它与无关。对于任意的
和
,它们的样本外误差的期望其实是相等的。这就是“没有免费的午餐”定理(No Free Lunch Theorem,NFL)。