【机器学习】样本处理:Bootstrapping
2021-09-18 本文已影响0人
宅家学算法
所谓的Bootstrapping法就是利用有限的样本资料经由多次重复抽样重新建立起足以代表母体样本分布的新样本。Bootstrapping算法又叫自扩展技术,是一种循序渐进的学习方法,以很小数量的数据为基础,通过多次训练把数据进行有效的扩充,最终达到需要的数据信息规模。
对于一个采样,我们只能计算出某个统计量(例如均值)的一个取值,无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以模拟出均值统计量的近似分布。有了分布很多事情就可以做了(比如说有你推出的结果来进而推测实际总体的情况)。
Bootstrapping方法的实现很简单,假设你抽取的样本大小为n:在原样本中有放回的抽样,抽取n次。每抽一次形成一个新的样本,重复操作,形成很多新样本,通过这些样本就可以计算出样本的一个分布。
- 新样本的数量多少合适呢?
大概1000就差不多行了,如果计算成本很小,或者对精度要求比较高,就增加新样本的数量。- 这种方法的准确性和什么有关呢?
猜测是和原样本的大小n,和Bootstrapping产生的新样本的数量有关系,越大的话越是精确。