【统计学速成课】Statistics Crash Course

2020-03-23 本文已影响0人美琦miki视觉笔记

那是20世纪20年代后期的某个晴朗的夏日，午后三点三刻，一群在剑桥大学里乱混的闲人（或曰学者）又凑在一起喝下午茶。一位女士坚称:加茶入奶和加奶入茶，味道很不一样。这一没有科学依据的说法当即遭到一群男学者嗤之以鼻。一位绅士出面为这位女士解围:不如我们就做个实验吧。实验的内容很简单，无非是给这位女士品尝用不同方法准备出来的茶，让她分辨出泡茶的方法，设计这个实验却并不像看起来那么容易。

首先，要准备多少杯茶给她尝结果才算有效呢？一杯肯定不行，那样的话，就是瞎猜也有一半猜对的可能。两杯也不行，如果这两杯分别用两种方法调出，那么她仍有一半的可能猜对。所以，最少杯数得用概率计算。除此之外，泡好的茶要按照怎样的顺序上？鉴于这也会影响到实验结果，还得算。

看，这是一个数学问题，严格说是个统计学问题。实际上，这是统计学里一个相当著名的实验——“女士品茶实验” （the lady tasting tea test），最早记录在1935年出版的《实验设计》（The Design of Experiments）一书里，作者就是那位出面解围的绅士——费舍勋爵（Sir Ronald Aylmer Fisher）。

3.均值众数

在偏态分布中，也就是中位数不等于均值，skewd了，此时mode众数表示出现最多的数，仍然是分布的最高点，median仍然是中间，mean均值则偏向了异常大的值（如果存在大值）/偏小（如果存在异常小的值）。

经济危机的时候，平均收入仍然上涨，但是中位数却下降，因为收入高的人群赚的钱更多了，其他人却是持平或者下降。

4.散布度量

5.数据可视化

分类型

定量型

前面第8课讲了相关性跟因果性，其实这个也是比较容易考，但是很简单的一个点

他讲到去看双变量数据的时候，会画一条回归线去看他们之间的相关性，那么对应的相关系数就是r

R方则表示一个变量的方差有多少被另一个变量检测到，简单来说，假如说香烟跟肺健康之间的R方百分之七十意味着香烟来预测肺健康，有70%的准确率

啊，然后讲到相关性不等于因果，因为相关的话有4种情况，1a导致b，2b导致a，3c同时导致了a和b 比如天气热了，大家会想要买空调，也想去游泳，但是买空调跟游泳之间是没有必然的关系的，4最后一种就是毫无关联，比方说尼古拉斯凯奇的电影上映的数据跟溺水的数据噢，就是完全是个巧合。

第9课讲了一个对照试验，讲的是如果说我们有一个虚拟世界的话，那我们会让两个世界同步操作进行实验的模拟，但是我们现实中没有办法，但是我们会尽量的让两个对照组跟实验组的情况是比较接近的，打造一个模拟的平行宇宙。

比方说面对的课题是咖啡机是不是会影响成绩？

在这里随机给一组家庭免费提供咖啡机，另外一组没有这里的随机非常重要，随机是假定了，是没有系统差的，同时随机的话也需要我们去重复的去做实验

那这里会存在一个分配和选择的偏差因为你必须要随机的分配给他们。比方说咖啡爱好者们都会想要去注册免费的咖啡机，但是茶的爱好者们就不会。也要阻止，原先对咖啡因有反应的人，他们也会想要做出一些不一样的选择，就是要保证随机性

然后再做随机化的驱组设计的时候，比如说运动是否与减肥有关

那会设计三组不运动的运动，5小时的运动，10小时的去看是不是有线性的关系

设置对照组是非常重要的，比方说在看药是不是有效的时候，其实做假的药跟做假的手术也能够让人感觉良好，所以这就是为什么啊，存在所谓的安慰剂的效应，所以在设置对照组的时候，我们可能会注射糖水，就是也会有一个药的工作。

而不是一组给药，一组什么都不吃。噢，这个我另外不知道在哪里看到，就是如果要分的话那就可以有三组，其实就是给药的，跟给了不是药，但是有药丸形状的跟一组是完全不吃的。

然后这里会存在单盲跟双盲两种测验

单盲是说受试者也就是患者，他自己不知道自己吃的是什么。啊，这种在安慰剂的情况下是可以做到的，因为他吃了一个药，他也不知道里面到底是药还是没有的，他自己是不知道的。噢，但是比方说你测的是低碳的食物还是结石之间的差别，因为患者他是直接能够看到你给他吃的东西是有差别的，所以这个时候就没有办法做到单盲

双盲测试是说是这个研究人和受试者同时他都不知道这个实验做的是什么。因为很多时候研究人员的信念会投射到受试者上面，就是潜意识会产生干扰跟影响。因为很多时候研究人员自己会觉得这个药是有用的，他会在做实验的时候无意间把这种体积是带给这个受试者，所以双盲在很多国际的一些药物的检测上面都是非常受到重视的

另外也有配对实验，你可以找同卵的双胞胎，因为他们的相似度特别高，所以对他们做ab测试会比较明显，可以看到差别，如果做不到同卵双胞胎，那也可以是限定在某一种特征类似，比方说年龄民族性别，体重类似的情况，下去做配对的实验

还有一种就是针对一个人的前后处理，在同一个人身上做不同的操作，进行重复的测量

10.刚看了一集是关于抽样的，因为在没有办法做实验的情况下，就可以采用调查，调查中，问的问题跟对象都很重要，问题要注意提供全面的选择以及不要有误导性，需要是中性的。

然后讲到类似前面打电话的无反应偏差，没接到电话的人可能是有不同的。愿意回复的人可能是消极或者积极存在着自愿回复的偏差。代表性不足的时候，少数人加上随机抽样加上反应偏差，会让少数人有可能在样本中不存在，但是如果说对于这些少数群体的反应进行加权有可能过于放大他们的看法。

然后讲了除了随机抽样以外，还有分层抽样跟雪球抽样。

另外还有人口普查每10年一次，虽然这个并不是抽样，但它是有必要去了解各方面全面的信息以及掌握精确的人口，所要采用的方法

11.讲的是如何用统计学思维科学看到一些报道

那些没有对照组/非随机设计的报道，可靠性都很低。只有随机设计和对照实验研究才有机会证明因果。要注意是谁写的，发布在哪里（可口可乐对牙齿有好处发布在可口可乐上就很不可信），谁赞助（果汁公司赞助写的果汁可以降低血压）

eg 布洛芬会增加男性的生育风险，一组服用会导致不孕不育，一组不服用，但是要服用安慰剂。但是很多文章报道的时候不会注意对照组。

某事物被证明有统计显著，可以减肥，但是实际上只能多减1/10磅。（之前所说的统计显著，实际不显著。显著不意味着效果很好）因为很多人看了报道说可以减肥，就去买了。但是统计的significant 不意味着减肥上的效果significant

双氧水可以杀死癌症。但是没说是体外培养/老鼠实验。

12.伦理研究

数据收集中，一些关于科学实验的伦理研究，需要患者自愿、知情、同意、慈善。受试者需要知道研究过程中发生了什么，也有权了解相关利益，即使是参与的孩子也要得到孩子程度的解释。要尊重被试者的尊严diginity 和自洽authority，并且可以在任何时候自行结束实验。

故事1:一个毛皮猎人st.martin擦枪走火，被一个beaumant军医救了，但是st.martin猎人留下了一个胃瘘，失去了猎人的工作，就成为军医的仆人。军医得到灵感，利用他做实验，得到人体如何消化食物的一些科学进步。但是后期martin不想在接受实验了，就拜拜了。

故事二：梅毒实验者在生病以后，实验方没有控制病情，导致他们的妻儿也染病了，造成恶劣影响。

故事三：一个肿瘤病人在不知情的情况下，被提取了海拉细胞，后来在体外培养，带来很多经济收益，但是病人本身却没有知情同意（informed consent）

二战对犹太人的惨烈实验，后期出台了《纽伦堡法典》。

现在的互联网时代，其实我们也是类似伦理研究中的擦边走火，用免费的wifi换取到完美的定制化的礼物，因为wifi要的是我们的数据。

奖励卡跟踪我们买了什么，netflix知道你喜欢看什么，amazon知道你买了啥看啥，app里面签了很多服务条款，但是你为了用不可能不签，需要考虑是否也同样有知情同意权等等。

公司用信息数据产生更好的服务，或者广告赚钱，有时候广告是有针对性的，比如招聘广告只给年轻人。

【统计学速成课】Statistics Crash Course

3.均值众数

猜你喜欢

热点阅读