统计学:从零开始

2020-08-12  本文已影响0人  Lunderfoot

统计学的研究

为何学习统计学

1.信息图形化

2.集中趋势的量度

平均数

3.分散性与变异性的量度

4.概率计算

5.离散概率的分布应用

E(aX+b)=aE(X)+b
Var(aX+b)=a²Var(X)
E(X1+X2+...+Xn)=nE(X),Var(X1+X2+...+Xn)=nVar(X)
Var(X+Y)=Var(X-Y)=Var(X)+Var(Y)
Var(aX+BY)=Var(aX-bY)=a²Var(X)+b²Var(y)

6.排列与组合

7.几何分布、二项分布及泊松分布

  • 概率的几何分布:(r-1)次失败1次成功
    P(X=r)=q^(r-1)p
  • 取得一次成功需要试验r次以上的概率:P(X>r)=q^r
  • P(X≤r)+P(X>r)=1
    P(X≤r)=1-P(X>r)
    P(X≤r)=1-q^r
  • 变量X的概率符合几何分布,单次成功概率为P可以写作:X~Geo(p)
  • 何时使用几何分布
    进行多次相互独立的试验时可使用几何分布(每次试验的概率保持不变),每一次试验都存在成功或失败的可能
  • 几何分布的期望和方差
    E(X)=1/p
    Var(X)=q/p^2
  • 二项分布的期望和方差
    E(X)=np
    Var(X)=npq
  • 何时使用二项分布
    试验次数固定,求成功一定次数的概率
  • 选择题 答对n个题中r题的概率
    p(X=r)=ⁿCrp^rq^(n-r)
  • p是每次试验的成功概率,n是试验次数,写作:X~B(n,p)
  • X~Po(λ)
  • 条件
  1. 单独时间在给定区间内随机、独立地发生,区间可以是时间或空间
  2. 已知该区间内的事件平均发生次数(发生率 入),且为有限数值。
  • P(X=r)=e^-λλ^r/r!*
  • 泊松分布的期望和方差
    E(X)=λ
    Var(X)=λ
  • 和其他分部差别
    不需要做一系列试验,但它描述了事件在特定区间内的发生次数
  • 当n很大(大于50),p很小(小于0.1),计算ⁿCr比较困难,使用泊松分布进行近似计算可以代替二项分布进行计算
    X~Po(np)
    X+Y~Po(λx+λy)

8、正态分布的运用:保持正态

9、再谈正态分布的运用:超越正态

10、统计抽样的运用:抽取样本

  • 简单随机抽样(抽签、随机编号生成器)
    重复抽样
    不重复抽样
  • 分层抽样
    将巧克力分成不同颜色再简单随机抽样
  • 整群抽样
    对一盒盒巧克力简单随机抽样,可能做不到完全随机
  • 系统抽样
    每10个单位抽样一次,如果总体存在循环模式,样本会有偏倚

11、总体和样本的估计:进行预测

  • X( 样本中红色糖球的数目)~B(n,p)
    Ps(样本成功比例)=X/n
    E(Ps)=E(X)/n
    Var(Ps)=pq/n
    比例标准误差=√pq/n
  • 当n很大时,大于30,Ps接近正态分布
    Ps~N(p,pq/n)
    需要对抽样分布进行连续性修正(加减1/2n)
  • 点估计量是有价值的,但也存在小小误差,没有使用整个整体
  • E(x拔)=μ
  • Var(x拔)=σ²/n
  • 均值的标准误差=σ/√n
  • 中心极限定理:X拔~N(μ,σ²/n)
  • 中心极限定理求出的概率与样本均值有关,与样本中的数值无关,因此不需要进行任何连续性修正

12、置信区间的构建:自信地猜测

  • (x拔-t(v)s/√n,x拔+t(v)s/√n)
  • v=n-1
  • 当总体符合正态分布而样本很小时,x符合t分布,需要使用样本数据估计总体方差

13、假设检验的运用:研究证据

14、X²分布:继续探讨

  • 二项分布
    已知p:v=n-1
    未知p:必须通过观察频数估计:v=n-2
  • 泊松分布
    已知λ:v=n-1
    未知λ,必须通过观察频数进行估计:v=n-2
  • 正态分布
    已知μ和σ²:v=n-1
    未知μ和σ²,必须通过观察频数进行估计:v=n-3
  • 在两个变量的独立性检验中,若列联表为h行k列,则v=(h-1)(k-1)

15、相关与回归

书中未涉及

1. 数据的其他表现形式
点图、茎叶图

2. 分布剖析

3. 实验
一个好实验具备哪些特点?
实验设计

4. 最小二成回归法的其他公式

5. 决定系数
r² = 0 无法从x值预测y值
r² = 1 可以从x值预测y值且无误差
r²介于两个极值之间,r²越接近1,越能通过x预测y,越接近0,越无法预测y

6. 非线性关系
7. 回归线斜率的置信区间
8. 抽样分布——两个均值之间的差异
9. 抽样分布——两个比例之间的差异

10. 连续概率分布的E(X)和Var(X)
E(X) = ∫xf(x)dx
Var(X) = ∫x²f(x)dx-E²(X)

上一篇 下一篇

猜你喜欢

热点阅读