miki实习第四周第三天 高级统计

2019-07-31  本文已影响0人  美琦miki视觉笔记

样本 

分析 

检验

大数定理 试验次数够多 频率近似于概率,样本均值=总体均值

中心极限 多次采样后的平均值会趋近于正态分布,且方差越来越小

 u均值 sigma^2/n方差

1.样本中的陷阱

>搜集样本

样本太少/成本过高/采样偏差/分层抽样不合理

>幸存者偏差 加强机翼还是机身

机身弹孔少,机翼弹孔多

死掉的人看不到

所以其实是机身中弹少的地方加固

根据已有用户数据,评估借钱用户的风险

1000个人 批了800个,800人有10%逾期

所以不是1000是10%逾期。

抽出的样本比起原来的已经变了

>辛普森悖论

逾期率 30岁以下 30岁以上

合理分层类别

2.分析中的陷阱

可视化

缺失值 填什么要看分布

平均数,中位数等等

3.结论中的陷阱

>相关性和因果性

因果不能够颠倒

海拔和温度

>假设检验

abtest 新方案通过率均值提高了1%

要看原来的base 数据量

上一篇 下一篇

猜你喜欢

热点阅读