描述统计学
研究方法入门
考虑因素:
- 测试样本
- 测试方法
- 样本数量
- 样本范围
- 隐藏变量
总体参数(总体均值)mu是用来描述整个总体的值。

样本统计量(样本均值)x-bar是用来描述样本的。我们使用统计量来估计总体参数。估计值是我们对总体参数的最佳猜测。

抽样误差是mu - x-bar表示样本参数与总体参数的误差。
样本大小n是取样的数量。
图表可视化
频率是y轴上的值。
集中趋势
众数(mode)是频率最高的x轴上的值。
平均值(mean)受极值的影响大,中位数(midean)受极值的影响小。
中位数偶数:midean = (num(n/2) + num((n+1)/2)) / 2
中位数奇数:midean = num((n+1)/2)
可变性
四分位差(IQR)是全部数据砍掉前25%和后75%的值域,Q1是第一个四分位点(25%),Q3是第三个四分位点(75%),IQR能避免受异常值的影响。
异常值定义:
- Outliner < Q1 - 1.5(IQR)
- Outliner > Q3 + 1.5(IQR)
平均绝对偏差:
平均平方偏差(方差):^2}{n})
标准偏差:用于消去单位的平方。
^2}{n}})
样本标准偏差:采用贝塞耳修正,即除以n-1,为了减少样本偏差与总体偏差的差距。
^2}{n-1}})
归一化
标准差数量:x为目前值,mu为平均值。

正态分布
正态分布两边对称。
3sigma规则:
Z-表格里面的数值是小于Z的比例,纵行为sigma数含小数前一位,横行为小数一位后,Z-表格:

抽样分布
样本均值的均值:总体样本的均值M。
中心极限定理:标准误差:
其中sigma为总体方差,SE为样本方差,n为样本数,可用Dice尝试