读书呆鸟的Python数据分析

《白话统计》——基础篇笔记

2019-02-15  本文已影响22人  小雨读书写作

统计学主题阅读的第2本书,这本书虽然说叫白话统计,但较我主题阅读的第一本《极简统计学》却是难了不少。主要体现在讲了更全,更深,下面开始本书的学习。

这本书作者是医学博士,所用案例多为医疗数据。主要提供的是数据分析的思路,而不是公式、工具。分为基础篇、实用篇。基础篇主要介绍概念、实用篇侧重介绍各种方法的思路及实现。


基础篇

一、为什么学统计

助力科研、工作,提供理性看待事物的能力。

二、 从“女士品茶”中领会假设检验——小概率反证法思想

所谓女士品茶是对"把茶加入到奶里和把奶加入到茶中会使味道品起来不同"的观点进行验证。 假设不具备这种能力,不同的顺序,喝多少杯等等不同条件下的验证。

学术上来说,小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。

三、参数估计及置信区间

参数估计——一叶知秋,一叶虽然有些夸张,但很好的体现了样本和总体

置信区间——给估计留点余地

四、各种分布

Weibull分布——常用于生存数据的拟合,描述死亡速度及速度的变化。横轴为时间。(暂未想到电力行业的应用)

Logistic分布——常用于研究一些物种的生命周期演变,如人口变化、种群变化、疾病感染变化等,有发生、发展、成熟、饱和4个阶段。横轴为时间。(暂未想到电力行业的应用)

正态分布——横轴为分类、纵轴为概率。

t分布——小样本正态分布,通过计算样本均值和样本方差,来估算总体的均值。自由度100以上,可用正态分布代替。t分布主要是与均数有关的抽样分布,常用于两个均数是否相等的统计检验、回归系数是否为0的统计检验。这些检验的形式都是某参数是否等于0,如两个差值是否等于0、回归系数是否等于0

F分布是与方差有关的抽样分布,常用于方差齐性检验、方差分析和回归模型检验它们都是针对方差而非均数的,如方差齐性检验是两个方差之比,方差分析是组间方差与组内方差之比,回归模型检验是模型方差与残差方差之比。

x2分布也是与方差有关的抽样分布,但它在实际中常用于描述分类资料的实际频数与理论频数之间的抽样误差。由于x分布本身是连续分布,因此在用于分类资料时,只有在大样本时才近似x分布。这也就是在理论频数较小时需要对检验进行校正的原因。

五、连续资料转为分类资料

连续资料转为分类资料从表面上是损失了数据信息,但正是因为分类,数据才更有意义,可以更有效的发现规律。

那如何分组呢?

1. 专业和实际经验:年龄段、BMI等

2.利用广义可加模型结合专业(GAM)——高度拟合曲线,找到规律。不为预测趋势,更多的为了合理分组。

3.利用分类数——基于熵的概念。

4.聚类分析——层次法、K-means法、需首先确定聚成几类,然后才能就指定几个中心点。


实用篇有些看不懂。计划结合大数据统计、统计案例两本书学习。

上一篇下一篇

猜你喜欢

热点阅读