统计学1-描述统计&推论统计

2019-10-14  本文已影响0人  赵阳_c149

概括


变量类型

数据类型可以分为分类数值。进一步,我们可以将数值变量分为连续离散。我们还发现我们可以将分类变量区分为定类定序


数值变量

有四个主要方面用于描述数值变量:

  1. 集中趋势测量
    为了度量集中趋势,可以考虑计算:
  1. 离散程度测量
    为了度量离散程度,可以考虑计算:

The standard deviation calculated with a divisor of 𝑛−1 is a standard deviation calculated from the sample as an estimate of the standard deviation of the population from which the sample was drawn. Because the observed values fall, on average, closer to the sample mean than to the population mean, the standard deviation which is calculated using deviations from the sample mean underestimates the desired standard deviation of the population. Using 𝑛−1 instead of 𝑛 as the divisor corrects for that by making the result a little bit bigger.

Note that the correction has a larger proportional effect when 𝑛 is small than when it is large, which is what we want because when n is larger the sample mean is likely to be a good estimator of the population mean.

  1. 分布的形状
    数据的分布通常为以下三种形状:

根据与数据集的形状,某些集中趋势或离散程度度量可能更适用于概括我们的数据集。当我们的数据遵循正态分布时,我们可以使用均值和标准差完全理解我们的数据集。但是,如果我们的数据集是偏态分布,五数概括法(和关联的集中趋势度量)更适用于概括数据。

  1. 异常值
    异常值对于均值度量的影响较大,而对中位数度量的影响较小。应该视情况处理异常值。常用技术包括:

分类变量

在分析分类变量时,我们通常只看一组数据属于一个分类的类别。例如,如果我们有两个狗的分类类别: 拉布拉多与非拉布拉多。我们可以说 32% 的狗为拉布拉多(百分比),也可以说 100 只狗中有 32 只是拉布拉多(计数)。

但是,与描述数值变量相关的四个方面不用于描述分类变量。


直方图和箱线图

可以使用直方图和箱线图来可视化数值数据。使用可视化方式比使用概括统计能使我们更容易地识别异常值和数据分布的形状。


描述统计

描述统计是用来描述收集的数据。


推论统计

推论统计在于使用我们收集的数据对更大的总体数据得出结论。

  1. 总体 —— 我们想要研究的整个群体。
  2. 参数 —— 描述总体的数值摘要
  3. 样本 —— 总体的子集
  4. 统计量 —— 描述样本的数值摘要
上一篇 下一篇

猜你喜欢

热点阅读