Python data analyse & AI

假设检验——常用假设检验与实例分析

2018-06-03  本文已影响23人  文婷_5250

统计学划分:

描述统计学

使用特定的数字或图表来体现数据的集中和离散程度。如:统计每次考试的各项指标分布。

1.集中趋势

对于一组数据,如果只允许用一个数字去代表这组数据,那么这个数字如何选择?

>均值:算术平均数,描述平均水平。

Note:容易收到极端数据的影响。

>中位数:按照大小排列所有数据,然后选择中间位置的数,描述中等水平。

Note:如果中间位置的数据有两个,也就是总个数为偶数,中位数就是中间两个数的算术平均数。不会收到极端数据的影响,但缺乏敏感性。

>众数:数据中出现最多的数,描述一般水平。

>求众数的函数

def get_more(arr):

                more = []

                arr_appear = dict((afar.count(a)) for a in arr)

                if max(arr_appear.values())==1:

                        return#没有众数

                else:

                        for k,v in arr_appear.items():

                                if v ==  max(arr_appear.values()):

                                        more.append(k)

                return more;

Note:一组数据,可能会存在多个众数,也可能不存在。众数不仅适用于数值型数据,对非数值型数据也同样适用。缺乏唯一性,可能不能作为指标。

2.离散程度的描述

极差:

最大值-最小值,简单描述数据的范围大小。

方差:

数据离中心越远越离散。var()

标准差:

方差的平方,与原数据单位一样,与方差一样表征数据离散程度。std()

3.偏度

对数据分布的偏斜程度的衡量。通过它的正负来判断数据是正偏还是负偏。也可用pandas 的方法skew()求出:

a= Series(a)

a.skew()

正偏:大部分数据比均值要大

负偏:大部分数据比均值要小

4.蜂度

数据分布峰态的度量指标。与正态分布进行比较。

尖峰 中峰 低峰

超额峰度

a.kurt()

5.分位数

将数据按照从小到大排列,然后分成两组,较小的一组元素个数占整个样本元素个数的值

6.数据基本特征描述

Describe()

7.多元数据的数据特征

方差与协方cov(),相关系数corr()

推断统计学

根据样本数据推断总体数据的特征。如:产品质量检查,一般采用抽样,根据样本的质量合格率作为总体的质量的一个估计。

只要有数据,统计学就有用武之地,广泛运用于经济学,医学,心理学,大数据分析,机器学习等。

假设检验

对于提出的假设进行检验,看它是不是真的。

基本思想:

1.小概率思想

2.反证法思想

零假设与备择假设--无罪推定原理

零假设:假定一个总体参数等于某个特定值的一个声明,如H0: p = 0.5

备择假设:假定该总体参数为零假设中假设的值除外的值,H1: p>0.5

选择原理:如希望假设的论断成立,设为备择假设;如希望假设不成立,设为零假设。

两类错误

p-value

上一篇下一篇

猜你喜欢

热点阅读