统计分析解密大数据

统计学学习笔记

2017-06-01  本文已影响704人  鬼宇书生

《深入浅出统计学》

大纲

1.统计学的作用
2.集中趋势的量度
3.分散性与变异性的量度
4.概率计算
5.离散概率分布的运用
6.排列与组合
7.几何分布、二项分布和泊松分布
8.正态分布的应用
9.超越正态分布的应用
10.统计抽样的应用
11.总体和样本的估计
12.置信区间的构建

统计学的作用

1.统计学可以帮助企业做出客观的决策,能够进行精准地预测
2.统计学能够使我们个人避免遭人愚弄

  1. 信息与数据的区别:
    • “数据”是指所收集的原始事实与数字。
    • “信息”是指加入了某种意义的数据
      例如 ,数字5、6、7 只是数字,并不知道有何含义——数据
      告诉这几个数代表三个孩子的年龄,数据有意义了——信息
集中趋势的量度
  1. 均值
    容易受异常值和偏斜数据的影响
  2. 中位数
  3. 众数
分散性和变异性的量度

1.极差
区分数据集分散程度,最大值-最小值

2.四分位数

3.十分位数,百分位数
第K百分数数即位于数据范围K%处的数值

4.可用箱线图绘制各种“距”

5.方差
方差是衡量数据分散性的一种方法,是数值与均值的距离的平方数的平均值

计算方差常用公式

6.标准差
标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
度量数据的分散性

7.标准分
对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。

标准分求解
概率统计
  1. 众数
  2. 概率
概率计算公式

3.条件概率

条件概率

4.全概率公式

与A一起发生,不与A一起发生

5.贝叶斯公式

贝叶斯公式 树轴法
离散概率分布的应用

1.期望:描述的是概率分布

期望

2.方差和标准差——度量一些特定数值的概率的分散情况的方法

方差越高,表示你的整体收益变化越大,整体的赢钱数额更不可预期,整体收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。

方差

3.线性变换
如果成本+1,奖赏变为5倍,期望和方差成线性变化

线性变换

4.独立观测的期望和方差

独立观测
排列与组合
  1. 排位方式
image.png

2.按类型排序

image.png

3.排列
从N个对象中取出R个对象进行排序,并得出排序方式总数目

排列

4.组合
从N个对象中选取r 个对象,不必知道所选对象的确切顺序

组合
几何分布、二项分布、泊松分布
  1. 概率的几何分布
    几何分布的应用条件:进行多次互相独立的试验,每一次试验都存在失败或成功的可能性。
几何分布 需要试验r次以上 需要试验r次或不到r次 期望值 方差

2.二项分布
二项分布使用的条件:进行一系列独立试验,每一次试验成功的概率都相同,且试验次数有限。

二项分布 image.png 期望值 方差

3.泊松分布
使用条件
在遇到独立事件时,若已知 r 且你感兴趣的是一个特定时间区间内的发生次数,使用泊松分布
描述了事件在特定区间内的发生次数
在特定条件下可以用来近似代替二项分布

泊松分布 期望与方差 代替二项分布
正态分布的应用
  1. 对于离散概率分布来说,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围的概率

2.概率密度函数的总面积必须是1
3.正态分布函数

image.png

4.概率密度计算的方法:

标准化
超级正态
  1. 知道x和y 的概率分布,就能算出x+y的概率分布
x+y的概率分布 x+y的均值 x+y的方差

2.x属于正态分布,ax+b属于整天分布,则ax+b的概率分布

image.png

3.如果X1, X2, ....Xn为X的独立观测结果,且X符合正态分布,则:

独立观测的期望值

4.正态分布代替二项分布

image.png

如果用正态分布近似代替二项分布,则需要进行连续性修正,这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型

5.正态分布代替泊松分布

image.png

用正态分布近似代替泊松分布,要进行连续型修正
6.总结

image.png
抽取样本

1.样本

2.如何选择样本

总体和样本的估计

1.均值

样本均值 点估计量

2.总体方差:比样本方差偏大

总体方差

3.预测总体比例:比例算法用于解决二项分布问题

总体成功比例的点估计量 样本成功比例

4.抽样分布的概率

image.png image.png image.png image.png

n越大,比例标准误差越小

image.png image.png

5.中心极限定理:如果从一个非正态总体X中取出一个样本,且样本很大,则抽取n个样品的分布也近似为正态分布

image.png image.png
置信区间的构建

1.求解置信区间步骤

2.置信区间计算的简单算法

image.png

3.置信区间简明算法——t分布
当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,着使它更适合小样本


image.png

《漫话统计学》
我们调查一件事,调查总体与样本

数据分为
不可测量的数据——分类数据(因人而异)

可测量的数据——数值数据 ( 有具体可衡量的数值)

组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值

算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean

中位数median

标准差 :表示一组数据“平均离散程度”的指标 standard Deviation

描述统计学和推断统计学
第三章:掌握数据整体的状态

将问卷调查转变成次数分布表
第四章:标准计分和离差

离差;Deviation Score

标准差: Standard deviation

标准化: Standardization

标准计分:standard score (数据-平均数)/标注差
第五章:求机率

机率密度函数:Probability Density Function 简称:pdf
正态分布函数
以平均值为中心呈左右对称

受到平均值和标准差的影响

面积=比例=机率

标准正态分布表记录对应横轴的可读之机率的表

卡方分布
卡方分布表则记录对应机率之横轴刻度的表 x^2

t分布

f分布

excel 中的分布与对应的函数


双变量的相关分析

相关系数 :correlation coefficient

共变异数:covariance

变异数:variance

相关比:correlation Ratio
数值数据和分类数据是用“相关比” 其值 介于0和1之间

克莱姆相关系数 (独立系数)
分类数据和分类数据之间的相关程度,介于0和1之间
第八章:深入理解独立性检验 (卡方检验)

20170527154429.png

P值和“检验”的顺序

独立性检验和齐性检验

上一篇下一篇

猜你喜欢

热点阅读