如何理解统计学这种思维方式之DCOV

2021-03-06  本文已影响0人  __Fergus__

《商务统计学》戴维-莱文

翻开书的一瞬间秒懂,这是我一直想要找的统计学书藉。

他不但讲知识,重要的是,站在整个数据工作流程上,给出一套完整的框架,给所有的知识点找到了安放的位置。

符合我们面对工具、知识的一般理解逻辑:是什么?怎么用?为什么虽然重要,但却不是当下最重要的。

在此之前已经看了好几本统计学相关的知识,知识点大概都知道了,但仍然不知道怎么用,有什么用,仿佛空有内力,但没有招式一般,与人切磋仍然只会蛮干。

什么是统计学?

统计学是一种思维方式,包含一系列处理数据的方法,能帮助我们判断事件的发生、数据的差异是偶然的,还是具有显著意义的,以便更好的做出决策。

如何更好的理解统计学这种思维方式?

通过一个框架将统计学的各种任务组织起来。

一个框架(DCOVA

在使用DCOVA之前,需要先定义问题,确定一个研究目的是定义问题结束的标志。

在DCOVA中,首先需要完成DC获取有意义的结果,OVA的执行顺序则不固定,根据实际需要执行。

如何定义问题?

如何定义变量?

收集数据需要注意什么?

  1. 注意区分数据来源

    数据来源可分为原始数据来源(一手)和二手数据来源。

  2. 辨别收集的数据是来自总体还是样本

    分析一个总体的数据时,需要计算参数。

    分析来自样本的数据时,需要计算统计量。

  3. 数据可能是结构化数据和非结构化数据

  4. 同样的数据可能是不同的电子格式,或不同的编码方式

  5. 数据清理

    异常值,对于属性变量是未定义的值,对于数值变量是不可能值。

    缺失值,由于某种原因无法收集到的值。

  6. 重新编码数据

    可能需要考虑将属性变量的类别重新划分,或将数值变量划分为分组转化为属性变量。

    特别注意,为新的变量提供可操作定义,每个数据的值只能被分配到一个类别,即互斥,且新产变量应包含所有的数据,即完备

抽样方法类别

  • 抽样框

    1. 概率样本

      凡有可能都应该使用概率样本,唯有概率样本才可以对总体进行统计推断。

      简单随机样本、系统样本、分层样本、聚类样本。

    2. 非概率样本

      便利样本、判断样本。

调查误差的类型

  • 调查是收集数据的主要方式之一。要识别调查的客观性/可信度。

    1.评价调查目的:为什么进行调查?调查为谁而做?

    2.调查是基于概率样本还是非概率样本?

    3.即使使用概率样本,调查也可能存在潜在误差

    • 覆盖面误差(导致选择性偏差)
    • 无回复误差(或低回复率)
    • 抽样误差
    • 测量误差

如何整理数据?

  1. 整理性属性变量

    将值按不同类别计数、计算百分比。

    总结表、列联表

  2. 整理数值变量

    有序数组、频数分布、频率分布、百分比分布、累积百分比分布

如何可视化数据?

用什么图形进行可视化,取决于我们的目的。

  1. 属性变量可视化

    • 条形图,各类别之间进行比较。
    • 饼图,观察各类别在总体中的占比。
    • 帕累托图,当数据主要集中在少数几个类别中时。
    • 对比条形图,对两个属性(变量)进行比较时。
  2. 数值变量可视化

    • 单个数值变量

      1. 茎叶图。

      2. 直方图,X轴数值变量,Y轴观测值的频数/频率。

      3. 百分比多边形图,X轴为组中值、Y轴为百分比。

      4. 累积百分比多边形图,X轴为组下限,Y轴为百分比。

    • 两个值变量

      1. 时间序列图
      2. 散点图
  3. 一组变量的整理和可视化

    • 多维列联表
    • 数据发现:向下钻取、树状图

准奏构造图表的恰当做法

1.使用简单图形;

2.包含标题;

3.标明所有的轴;

4.如果图表包含轴,每个轴标明刻度;

5.纵轴从0开始;

6.使用固定比例尺;

7.不使用3D特效;

8.不使用花哨图表。

如何分析数据?

上一篇 下一篇

猜你喜欢

热点阅读