假设检验——常用假设检验与实例分析
统计学划分:
描述统计学
使用特定的数字或图表来体现数据的集中和离散程度。如:统计每次考试的各项指标分布。
1.集中趋势
对于一组数据,如果只允许用一个数字去代表这组数据,那么这个数字如何选择?
>均值:算术平均数,描述平均水平。
Note:容易收到极端数据的影响。
>中位数:按照大小排列所有数据,然后选择中间位置的数,描述中等水平。
Note:如果中间位置的数据有两个,也就是总个数为偶数,中位数就是中间两个数的算术平均数。不会收到极端数据的影响,但缺乏敏感性。
>众数:数据中出现最多的数,描述一般水平。
>求众数的函数
def get_more(arr):
more = []
arr_appear = dict((afar.count(a)) for a in arr)
if max(arr_appear.values())==1:
return#没有众数
else:
for k,v in arr_appear.items():
if v == max(arr_appear.values()):
more.append(k)
return more;
Note:一组数据,可能会存在多个众数,也可能不存在。众数不仅适用于数值型数据,对非数值型数据也同样适用。缺乏唯一性,可能不能作为指标。
2.离散程度的描述
极差:
最大值-最小值,简单描述数据的范围大小。
方差:
数据离中心越远越离散。var()
标准差:
方差的平方,与原数据单位一样,与方差一样表征数据离散程度。std()
3.偏度
对数据分布的偏斜程度的衡量。通过它的正负来判断数据是正偏还是负偏。也可用pandas 的方法skew()求出:
a= Series(a)
a.skew()
正偏:大部分数据比均值要大
负偏:大部分数据比均值要小
4.蜂度
数据分布峰态的度量指标。与正态分布进行比较。
尖峰 中峰 低峰
超额峰度
a.kurt()
5.分位数
将数据按照从小到大排列,然后分成两组,较小的一组元素个数占整个样本元素个数的值
6.数据基本特征描述
Describe()
7.多元数据的数据特征
方差与协方cov(),相关系数corr()
推断统计学
根据样本数据推断总体数据的特征。如:产品质量检查,一般采用抽样,根据样本的质量合格率作为总体的质量的一个估计。
只要有数据,统计学就有用武之地,广泛运用于经济学,医学,心理学,大数据分析,机器学习等。
假设检验
对于提出的假设进行检验,看它是不是真的。
基本思想:
1.小概率思想
2.反证法思想
零假设与备择假设--无罪推定原理
零假设:假定一个总体参数等于某个特定值的一个声明,如H0: p = 0.5
备择假设:假定该总体参数为零假设中假设的值除外的值,H1: p>0.5
选择原理:如希望假设的论断成立,设为备择假设;如希望假设不成立,设为零假设。