【系列】统计基础（2）简单理解t检验与z检验

2017-10-21 本文已影响99人秋小鱼Sandy

这一部分的内容是后续所有算法的基础的基础。就是我们常说的各种检验，例如：t检验，Z检验，F检验，卡方检验等等。这些检验目的是告诉我们可以接受原假设的概率有多大。之所以会有这么多检验方法，是因为现实世界太复杂，数据分析也会遇到各式各样的难题，解决不同的难题可能需要不同的工具。

如果我们的变量是连续型指标，那么使用t-检验来描述均值之间的差异。

假如说，当下我们有两块小麦地，我们希望对两块小麦的产量进行比较，看是否不同的土地的产量相同。当然，我们不希望要把这两块地所有的小麦收割下来进行比较，希望能够简单一点，轻松一点，仅仅是分别采集两块地一小部分的小麦进行比较。

我们将两块地的样本产量分别进行可视化表示。

首先，我们从均值的角度入手，来对比两个分布的差异。然而均值仅仅是一个切面的信息，数据的分布可能形态各异，均值本身并不能代表全部的信息分布。例如如下的第二张和第三张截图，可以想象第二张图数据集中性程度相比较第三张要分散的开（离散程度高），那么同样的均值，第二张分布的均值对于整体数据的代表程度要低于第三张图。

此刻，我们可以进一步思考，如果均值代表了不同数据分布差异的时候，其数据的离散程度就代表了均值不能解释的部分，或者称为噪音。通过两者相除的方式，就产生了如下的t值计算公式。

这里，我们可以看到如果t值越大，那么代表了两个分布的差异也许会越大，那么多大代表着最够大呢？于是，我们需要在这里引入一个标准来衡量t值，这时候就是我们p值登场的地方了，p值怎么理解，详见《p值等同于概率么》这篇文章。每一个t值都会有一个p值，p值越小，代表没有足够的理由去接受原假设。

而t检验与z检验的不同就在于样本量与是否得知整体方差，t检验适用于小于30的样本量，不知道整体分布方差的情况，z检验反之。

【系列】统计基础（2）简单理解t检验与z检验

猜你喜欢

热点阅读