第一课 基本概念
根据前几天一个小项目的经验,目前发现书确实读得太少,所以现在下定决心对统计和数据挖掘进行系统性的学习,当然也是快速的,因为没有学生那样有那么多的时间。
集中趋势
均值——算术平均数,描述平均水平
中位数——将数据按大小排列后位于正中间的数描述,描述中等水平
众数——数据中出现最多的数,描述一般水平
中位数-中间位置的数
例:58,32,46,92,73,88,23
1. 先排序:23,32,46,58,73,88,92
2. 找出处于中间位置的数:23,32,46,58,73,88,92。三个数字比58小,三个数字比58大
例:58,32,46,92,73,88,23,63——多加了一个数字,情冴有何改变?
1. 先排序:23,32,46,58,63,73,88,92
2.找出处于中间位置的数:23,32,46,58,63,73,88,92
3. 若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数:(58+63)/2=60.5——原数据中,四个数字比60.5小,四个数字比60.5大。
众数-出现最多的数
1 2 2 3 3 中的众数是2和3
1 2 3 4 5 中没有众数
均值-充分利用所有数据,适用性强-容易受到极端值影响
中位数-丌受极端值影响-缺乏敏感性
众数-当数据具有明显的集中趋势时,代表性好;丌受极端值影响-缺乏唯一性:可能有一个,可能有两个,可能一个都没有
离散程度描述
比较下面两组数据:
A——1 2 5 8 9 B——3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据不5更加接近。但是有描述集中趋势的统计量丌够,需要有描述数据的离散程度的统计量
极差:最大值-最小值,简单地描述数据的范围大小
A:9-1=8;B:7-3=4
同样的5个数,A的极差比B的极差要大,所以也比B的要分散
但是只用极差这个衡量离散程度也存在丌足
如:A——1 2 5 8 9 B——1 4 5 6 9
方差
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
为总体方差,
image为变量,
image为总体均值,
image为总体例数。
、
image.png标准差
标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
image.png
然后注意几个图
直方图
箱型图
image.png